Классификация видов данных

Понятие Data Mining. Сравнение статистики, машинного обучения и Data Mining. Применение Data Mining для научных исследований.

Понятие Data Mining

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений. Суть и цель технологии

Data Mining. - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. Знания - совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.

Сравнение статистики, машинного обучения и Data Mining

· Статистика

o Более, чем Data Mining, базируется на теории.

o Более сосредотачивается на проверке гипотез.

· Машинное обучение

o Более эвристично.

o Концентрируется на улучшении работы агентов обучения.

· Data Mining.

o Интеграция теории и эвристик.

o Сконцентрирована на едином процессе анализа данных, включает очистку данных,

обучение, интеграцию и визуализацию результатов.

Data Mining для научных исследований

Биоинформатика; Медицина; Фармацевтика; Молекулярная генетика и генная инженерия;Некоторые применения этого направления; Химия

Сопоставление и сравнение понятий «данные», «информация», «знания». Типы наборов данных. Измерения. Форматы хранения данных. Классификация видов данных.

Сопоставление и сравнение понятий "информация", "данные", "знание"

Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере.

Для начала сделаем попытку разобраться в этих терминах на простых примерах.

1. Студент, который сдает экзамен, нуждается в данных.

2. Студент, который сдает экзамен, нуждается в информации.

3. Студент, который сдает экзамен, нуждается в знаниях.

При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.

Информация, в отличие от данных, имеет смысл.

Понятия "информация" и "знания", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно. Понятие "информации" непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений. Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными.

Типы наборов данных

Данные, состоящие из записей

Наиболее часто встречающиеся данные. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные. Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов. Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

Графические данные

Примеры графических данных: WWW-данные; молекулярные структуры; графы; карты.

С помощью карт, например, можно отследить изменения объектов во времени и пространстве, определить характер их распределения на плоскости или в пространстве. Преимуществом графического представления данных является большая простота их восприятия, чем, например, табличных данных.

Пример карты, являющейся картой Кохонена (моделью нейронных сетей, которые будут рассмотрены в одной из лекций нашего курса),

Химические данные

Химические данные представляют собой особый тип данных. Пример таких данных:

Benzene Molecule: C6H6

Измерения

Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило, в соответствии с которым объектам присваиваются числа

Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.). При манипулировании данными используется структура данных типа "файл". В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов. Наиболее распространенные форматы, согласно опросу "Форматы хранения данных",

Классификация видов данных

Реляционные данные - это данные из реляционных баз (таблиц).

Многомерные данные - это данные, представленные в кубах OLAP.

Измерение (dimension) или ось - в многомерных данных - это собрание данных одного и того же типа, что позволяет структурировать многомерную базу данных. По критерию постоянства своих значений в ходе решения задачи данные могут быть:

· переменными;

· постоянными;

· условно-постоянными.

Переменные данные - это такие данные, которые изменяют свои значения в процессе решения задачи.

Постоянные данные - это такие данные, которые сохраняют свои значения в процессе решения задачи (математические константы, координаты неподвижных объектов) и не зависят от внешних факторов.

Условно-постоянные данные - это такие данные, которые могут иногда изменять свои значения, но эти изменения не зависят от процесса решения задачи, а определяются внешними факторами.

· данные за период;

· точечные данные.

Наши рекомендации