Почему растет популярность Data Mining?
Курсовая работа
по дисциплине: «Сетевые информационные технологии»
на тему: «Технологии интеллектуального анализа данных или Data mining технологии»
Выполнила: студентка ФКН УС-502 Морарь Ю.В.
Проверила: Климова А.С.
Киев-2012
Содержание
Введение_________________3
1. Почему растет популярность Data Mining?_________________________4
2. Определение Data Mining_________6
3. Области применения Data Mining__8
4. Типы закономерностей__________14
5. Классы систем Data Mining______15
6. Инструментарий технологии Data Mining__________________________20
7. Важное положение Data Mining__22
8. Специальные приложения________23
Медицина______________23
Молекулярная генетика и генная инженерия_________________23
Прикладная химия________24
9. Data Mining. Мультидисциплинарная область_______________________18
10. Класиффикация стадий Data Mining______________________________26
10.1. Свободный поиск (Discovery)_____________________________26
10.2. Прогностическое моделирование__________________________28
10.3. Анализ исключений (forensic analysis)_______________________31
11. Класиффикация методов Data Mining____________________________32
11.1. Статистические методы Data mining______________________35
11.2. Кибернетические методы Data Mining_____________________37
Выводы_________________38
Список литературы______41
Введение
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. (Григорий Пиатецкий-Шапиро)
Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.
Почему растет популярность Data Mining?
Мы живем в веке информации. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач.
Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний.
Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать "сырые" данные в полезную для принятия важных бизнес решений информацию. В этом и состоит основное предназначение технологий Data Mining.
Необходимость автоматизированного интеллектуального анализа данных стала очевидной в первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE только научные институты собирают ежедневно около терабайта новых данных! А ведь академический мир далеко не самый главный поставщик информации. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки.
Другой причиной роста популярности Data Mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.
И, наконец, Data Mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения Data Mining, чем постоянно содержать целую армию высоко подготовленных и дорогих профессиональных статистиков. Data Mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.
Итак, современная специфика такова, что:
· данные имеют неограниченные объем;
· данные являются разнородными (количественными, качественными, текстовыми);
· результаты должны быть конкретны и понятны;
· инструменты для обработки сырых данных должны быть просты в использовании.