Иерархическая классификация
При иерархической классификации все исходное множество элементов, соответствующих анализируемой предметной области, образует первоначально нулевой уровень классификации (он вначале является текущим). Затем выполняются шаги:
1) нулевой уровень делится на классы в зависимости от выбранного классификационного признака. Полученные группы образуют первый уровень;
2) каждый класс первого уровня делится на подклассы в соответствии со своим признаком классификации. Использование оригинального признака классификации при этом и каждом последующем разбиении на классы позволяет использовать независимые классификационные признаки в разных ветвях иерархической структуры. Получается второй уровень классификации;
3) полученный уровень классификации становится текущим и к нему применяется первый шаг.
Пример 15.1. Пусть решается задача анализа успеваемости отдельных студентов в учебных группах первого курса специальностей кафедры СУиВТ по итогам зимней сессии. В результате первичного восприятия (первый этап сбора информации) выявлены следующие характеристики предметной области, существенные для решаемой задачи:
1) на первом курсе по кафедре СУиВТ набраны 2 учебные группы с шифрами АС и ВС;
2) в зимнюю сессию включены экзамены по дисциплинам (условно):
· для группы АС– информатика, математика;
· для группы ВС – физика, культурология;
3) возможные оценки за экзамены – от 2 до 5;
4) известны оценки по каждой дисциплине.
Построить классификацию студентов первого курса кафедры СуиВТ для решения задачи анализа результатов сессии, применив метод иерархической классификации.
Зададимся нулевым уровнем классификации – это все множество студентов первого курса кафедры СУиВТ (см. рис. 15.1). Применим первый классификационный признак – пусть это шифр учебной группы. Получим первый уровень классификации.
студенты первого курса
специальностей кафедры СУиВТ
0-й уровень
ВС АС 1-й уровень
информатика математика физика культурология 2-й уровень
5 4 4 3 4 3 5 3-й уровень
Рис. 15.1. Классификатор для примера 15.1
К каждому классу первого уровня применим классификационный признак – дисциплина с соответствующими учебной группе значениями. Получим второй уровень классификации.
К каждому классу второго уровня применим классификационный признак – оценка, причем, поскольку известно, какие оценки были выставлены по каждому экзамену, значения классификационного признака соответствуют дисциплине. Получим третий уровень классификации.
Классификатор построен.
Фасетная классификация
Признаки классификации выбираются независимо друг от друга, например, при построении классификатора этим способом не имеет значения, что по информатике в сессию не было троек (см. пример 15.1). Признаки классификации называют фасетами. Каждый фасет содержит совокупность однородных значений данного классификационного признака.
Пример 15.2. Построить фасетный классификатор для задачи из примера 15.1.
В соответствии с выявленными классификационными признаками и их значениями имеем:
Учебные группы | Дисциплины | Оценки |
ВС | Информатика | |
АС | Математика | |
Физика | ||
Культурология |
Полученная таблица и есть классификатор. При этом данные, находящиеся в одной строке, никак не связаны.
Методы кодирования
Цель данного кодирования – замена названия объекта на условное обозначение. Выполняется для уменьшения объема регистрируемой информации и, возможно, для защиты от несанкционированного доступа.
Различают следующие методы кодирования:
1) регистрационные, не требуют предварительной классификации объектов. Включают следующие виды:
· порядковое кодирование. Объекты обозначаются числами натурального ряда или другими символами. Применяется, когда количество объектов невелико.
Пример 15.3. Выполнить порядковое кодирование для значений классификационных признаков из примера 15.1.
При решении этой задачи преследуем две цели – уменьшение объема информации (для учебных групп и дисциплин) и шифрование для защиты от несанкционированного доступа (для оценок). Примерная система кодирования будет иметь вид:
Значения признака «учебные группы» | Коды | Значения признака «дисциплины» | Коды | Значения признака «оценки» | Коды |
ВС | Информатика | # | |||
АС | Математика | $ | |||
Физика | @ | ||||
Культурология |
· серийно-порядковое кодирование. Предварительно выделяются группы объектов, которые составляют серию, затем в каждой серии производится порядковое кодирование. Сами серии также кодируются с помощью порядкового кодирования. Между кодами серии и ее элементов ставится разделитель. Применяется, когда число объектов сравнительно велико, но классификация не применяется.
Пример 15.4. Выполнить серийно-порядковое кодирование для значений признака «дисциплина», условно предположив, что число его значений велико.
Для кодирования упорядочим значения по алфавиту и разобьем список на две равные части - серии. Первой серии присвоим код А, второй – В. Элементы в каждой серии пронумеруем по порядку. Получим:
Серия А Серия В
1 информатика 1 математика
2 культурология 2 физика.
Тогда получим коды:
Значения признака «дисциплины» | Коды |
Информатика | А.1 |
Математика | В.1 |
Физика | В.2 |
Культурология | А.2 |
2) классификационные, ориентированы на проведение предварительной классификации объектов на основе иерархической или фасетной классификации. Включают следующие подходы:
· последовательное кодирование. Используется для иерархической классификации – сначала записывается код класса первого уровня, затем – второго и т.д. Коды классов формируются способом регистрационного кодирования, между кодами разных уровней классификации возможны разделители.
Пример 15.5. Выполнить последовательное кодирование для вершин третьего уровня классификатора из примера 15.1. При этом использовать коды признаков, полученные при порядковом кодировании из примера 15.3.
Припишем коды из примера 15.3 вершинам классификатора из примера 15.1. Результат представлен на рис. 15.2 (коды приписаны вершинам справа и выделены жирным стилем). Тогда, например, для класса студентов из группы ВС, получивших оценку 5 на экзамене по информатике, сформируем код:
1.1.#,
где точка играет роль разделителя.
студенты первого курса
специальностей кафедры СУиВТ
0-й уровень
ВС 1 АС 2 1-й уровень
информатика 1 математика 2 физика 3 культурология 4 2-й уровень
5 # 4 $ 4 $ 3 @ 4 $ 3 @ 5 # 3-й уровень
Рис. 15.2. Дерево кодов для примера 15.5
· параллельное кодирование. Используется для фасетной классификации. Фасеты кодируются с использованием регистрационного кода, между кодами разных уровней возможны разделители.
Пример 15.6. Выполнить параллельное кодирование для класса со следующими значениями классификационных признаков (при построении кода учитывается и порядок признаков). При этом использовать коды признаков, полученные при порядковом кодировании из примера 15.3:
дисциплина = физика;
учебная группа = АС;
оценка = 3.
Имеем код:
3.2.@,
где точка играет роль разделителя.