Отношения мер сходства, включения и иерархии
Отношения мер сходства (различия), включения и иерархии позволяют при обработке множеств исследуемых объектов выявлять наиболее интересные закономерности строения анализируемых множеств. В общем случае под отношением понимается пара <А, М>, где М— множество, на котором отношение определено, а А — подмножество пар М x М, для которых это отношение выполнено. Множество М называется областью задания отношения А.
Отношения мер сходства и иерархии исследуются на основе матриц сходства множества рассматриваемых объектов, а отношения мер различия и включения исследуются на основе матриц мер различия и включения. При этом матрицы сходства и различия по определению соответствующих мер обладают свойством симметрии относительно главной диагонали, а матрицы мер включения таким свойством не обладают.
Отношения сходства, различия и включения, порождаемые соответствующими мерами, определяются следующим образом:
Здесь j, k Î J; СD, DD, BD —соответственно отношения сходства, различия и включения; D— некоторое произвольное число (0£D £ 1,0 для отношения сходства и включения). Записи Sj СD Sk и Sj BD Sk означают соответственно то, что Sj и Sk находятся в отношении "D-сходства" и "D-банальности". Отношение "банальности" или "экзотичности" порождается мерой включения. При этом запись Sj BD Sk означает, что описание Sj "банальнее" Sk при пороге D. Например, если рассчитанные для пары объектов меры включения имеют следующие значения: W(S1; S2) = 0,57, W(S2; S1)= 0,67, то эти результаты можно интерпретировать следующим образом. Мера включения первого описания во второе (0,67) показывает, что второй объект "оригинальнее", или "экзотичнее", первого. Т. e. описание второго объекта содержит больше специфических признаков, чем описание первого объекта, поскольку первое описание включено во второе на 67 %, а второе включено в первое на 57 %.
Отношение иерархии определяется следующим образом. Если множество H(i) образовано соединением некоторых классов из множества Н(i), то f: Н(i) ® Н(j) сюръективно: каждому элементу Н(i) соответствует хотя бы один элемент из Н(j). То обстоятельство, что класс появляется классом более широким, чем Н(j) отображается через отношение иерархии И следующим образом: Н(i) И Н(j) (класс H(i) подчиняет класс H(j)).
Множество H(i) называется сгущением H(j), если хотя бы один из классов H(i) есть соединение классов из H(j).
Если И = {Н(1),..., H(S)} есть множество разбиений, таких, что Н(k) сгущение Н(k-1), где k Î К, К = {k ½ k — целое число, 1 £ k £ S}, то в предельном случае Н(1) состоит из всех классов, содержащих ровно по одному элементу, a H(S) — из одного класса, совпадающего с исходным множеством исследуемых объектов J. При этом если задано разбиение, то элементы, входящие в один и тот же класс, являются неразличимыми (эквивалентными). Здесь под разбиением Н множества J понимается представление J в виде совокупности непустых подмножеств Hk, k = 1, 2,..., п , таких, что
Множество И есть иерархическая система, состоящая из S уровней. Номеру каждого уровня можно поставить в соответствие его ранг, так как К— упорядоченное множество, а названия всех классов одного ранга считать категорией.
При практической реализации иерархических классификаций строятся дендрограммы, являющиеся графическим способом изображения системы, что делает наглядной структуру иерархической системы. Последовательный процесс построения сгущений начинается с рассмотрения q объектов {q Î H(1)). Таким образом, на первом шаге каждый объект из заданного множества считается классом. Далее два наиболее схожих объекта объединяются в один класс, и общее число последних становится равным q -1. Эти классы принадлежат разбиению H(2), являющемуся сгущением Н(1). Если число схожих объектов п, то объединяются любые два из них. Среди оставшихся снова отыскиваются наиболее схожие, которые также объединяются. Аналогичные процедуры осуществляются до тех пор, пока все объекты не попадут в один класс H(S).
Одним из наиболее распространенных и простых подходов построения дендрограмм является подход, основанный на использовании матрицы сходства.
Определение сходства каждого вновь образованного класса со всеми остальными может производиться на основе матриц сходства шестью наиболее употребительными методами, которые описываются единой формулой:
где G(Hj,Hk) — мера сходства или различия классов Hj и Hk = {Ни ,Hl}.
Здесь nu, nk — число объектов соответственно u-го и k-го классов; пk = nu + nl.
Конкретный метод подбирается проектировщиком индивидуально для исследуемой предметной области с учетом ее специфики. Единых правил выбора не существует. Главным критерием для выбора метода классификации может являться хорошая интерпретируемость получаемых результатов, не противоречащих физическому смыслу изучаемой предметной области.