Классификация пространственно-координированных объектов
ТЕОРИЯ
Сложно воспринимать и обрабатывать бесконечное множество объектов окружающего мира и значений, их характеризующих. Поэтому классификации как способ систематизации, уменьшения количества различных объектов и объяснения их природы находят широкое применение, как в науке, так и практике.
Всем известна классификация химических элементов Д. И. Менделеева и классификация живых организмов в биологии. Опознавание (классификация) «свой – чужой» ранее проводилось «вручную» (например, по запаху, раскраске, одежде, поведению и т.д.), а в настоящее время автоматизировано (например, в военных целях). Медицина основана на диагностировании (классификации) болезни по симптомам. Можно привести множество других примеров.
Классификации всегда предшествует этап абстрагирования – выделения интересующих характеристик объектов и исключения несущественных качеств. Цель классификации – отнесение любого объекта к одному из классов, причем необязательно трактуемому как «хороший» или «плохой». В пределах каждого класса значения характеристик объектов должны быть максимально «похожи» друг на друга, в некотором смысле однородны, а объекты из разных классов – максимально «различаться».
Термин «классификация» является наиболее общим понятием и может использоваться в различных смыслах, в том числе и как процесс (отнесение объектов к классам), и как результат этого процесса (объекты, разделенные на классы). Часто для уточнения термина «классификация» используются понятия «сегментация», «кластеризация», «таксономия», «типология», «группировка», «оценка» и «ранжирование». Разница заключается в том, что «классификация» в узком смысле – это отнесение объектов к заранее определенным (заданным) классам (например, распознавание «свой – чужой»). «Сегментация», «кластеризация» и «таксономия» – это получение на множестве объектов уникальной системы классов (например, разделение покупателей по структуре их потребления). «Оценка» – это отнесение объектов к «хорошим» или «плохим» классам на основе значений единственного агрегированного признака (например, классификация регионов России по степени экономического развития).
В математических дисциплинах содержатся соответствующие разделы – теория распознавания образов, аппарат нейронных сетей, так называемая Data Mining и др.
До появления ЭВМ методы классификации были достаточно примитивны. Суть их в основном сводилась к группировке объектов, имеющих полное совпадение значений всех признаков. Развитие вычислительной техники и методов анализа данных во второй половине XX в. вывело классификации на качественно новый уровень. Развитие это шло во многих науках независимо друг от друга.
Рассмотрим специфику классификации в геоинформатике.
Во-первых, объектом классификации в географии являются пространственно-координированные объекты, имеющие компонент местоположения. Его наличие позволяет учитывать при анализе координаты объектов и их взаиморасположение.
Во-вторых, карта является мощнейшим средством представления информации в виде единого образа, что дает богатейшие возможности интерактивного задания начальных условий анализа, отображения его хода и результатов.
Для краткости будем называть пространственные объекты операционно-территориальными единицами (ОТЕ). Наиболее часто встречаются следующие типы ОТЕ: административно-территориальные единицы; населенные пункты; ячейки регулярной или нерегулярной сетки, наложенной на исследуемую территорию; ячейки растра.
Несмотря на географическую природу, ОТЕ имеют и содержательные характеристики – атрибуты. Чаще всего результатом нахождения ОТЕ в атрибутивном признаковом пространстве является представление исходных ОТЕ в виде матрицы объект-признак (ОТЕ-признак), отражающей измерение М признаков на N ОТЕ и содержащей N строк и М столбцов:
Таблица 1
Признаки | ||||||
б ъ е • к т ы | Название субъекта РФ | Статус субъекта РФ | Уровень образования | Действительных бюллетений, шт. | Количество голосов | |
за Б. Н. Еть- цина | ... | «Против всех» | ||||
Москва | Город | Высокий | 4 606 632 | … | ||
Омская область | Область | Средний | 1 076 469 | … | 22 553 | |
Калужская область | Область | Средний | .. | 9 194 | ||
… | … | … | … | … | … | … |
Бурятия | Республика | Низкий | 125 122 | .. | 5 820 |
где оi = (oi(l), ..., oi(M)) – i-я ОТЕ в М-мерном пространстве признаков; о(j) – j-й признак, о(j) = (о1(j),..., оN(j))T; оi(j) –значение j-го признака на i-й ОТЕ.
Фрагмент матрицы объект-признак может выглядеть следующим образом (табл. 1).