Иерархическая система классификации.
Иерархическая система классификации (Рис. 1) строится следующим образом:
q исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;
q каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;
q каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.
Рис. 1. Иерархическая система классификации
Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта «Студент», которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента, для женщин — наличие детей.
Система классификации представлена на Рис. 2 и будет иметь следующие уровни; 0-й уровень. Информационный объект «Студент»;
1-й уровень. Выбирается классификационный признак – название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.
2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных полкласса студентов.
3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы — мужчин и женщин.
4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.
Созданная иерархическая система классификации имеет глубину классификации, равную четырем.
Рис. 2. Пример иерархической системы классификации для информационного объекта «Студент»
Измерение информации
Рассмотрим два способа измерения информации.
Первый способ отражает вероятностный подход к измерению информации.
Рассмотрим некоторый алфавит из N символов, где pi (i = 1, 2, ..., N) - вероятность выбора из этого алфавита i-ой буквы для описания (кодирования) некоторого состояния объекта. Каждый такой выбор уменьшит степень неопределенности в сведениях об объекте и, следовательно, увеличит количество информации о нем. Для определения среднего значения количества информации, приходящейся в данном случае на один символ алфавита, применяется формула
.
В случае равновероятных выборов pi = 1/N. Подставляя это значение в исходное равенство, мы получим
.
Пример. Пусть из набора 32 возможных чисел необходимо выбрать одно определенное число, получая на каждую попытку ответ «да» или «нет». Воспользуемся приведенной выше формулой, чтобы узнать то количество попыток, которое гарантирует нам отгадку нужного числа, т.е. количество информации, необходимое нам для выбора задуманного числа: Н = log2N = log232 = 5.
Рассмотрим еще одну задачу, решение которой связано с вероятностным подходом к измерению количества информации: кодовый замок сейфа должен включать не менее 1000 уникальных комбинаций. Сколько двухпозиционных переключателей необходимо включить в его конструкцию? Решение: Н = log21000. Н не является целым числом. Для гарантированного получения 1000 уникальных комбинаций заменим 1000 на 1024 - ближайшую к нему степень числа 2. log21024 = 10. Ответ: в конструкцию необходимо включить 10 двухпозиционных переключателей.
Второй способ, так называемый объемный. При алфавитно-цифровом представлении информации любое слово, являющееся последовательностью символов, становится информацией. Число символов в слове называется его длиной. Каждый новый символ увеличивает количество информации, представленной последовательности символов выбранного алфавита. Для измерения количества информации надо выбрать соответствующий эталон. Эталоном для подсчета количества информации, представленной последовательностью символов, логично считать слово минимальной длины, то есть состоящее из одного символа. Количество информации, содержащееся в слове из одного символа, принимают за единицу. Если мы конструируем сообщения, используя двузначный алфавит из двух цифр 0 и 1, то величина способная принимать два различных значения (0 и 1), становится эталонной единицей количества информации, называемой бит (binary digit- двоичный разряд).
В общей теории информации в качестве эталона меры для нее выбирается некоторый абстрактный объект, который может находиться в одном из двух состояний (например, включен / выключен, да / нет, 0 / 1 и т. п.), или, как еще говорят, бинарный объект. Говорят, что такой объект содержит информацию в 1 бит. Данный метод измерения информации во многом был предопределен возможностями ее хранения в различных технических устройствах, где на элементарном уровне информация запоминается с помощью магнитно-электрических устройств, которые могут находиться в одном из двух возможных состояний. Данное решение позволяет гармонично связать методы измерения информации с бинарной (двоичной) организацией системы ее хранения.
Сравнивая с эталоном, можно установить объем информации, содержащейся в слове, записанном в том же двузначном алфавите. Но при представлении информации в виде последовательности слов, составленных из символов двоичного алфавита, становится невозможным раскодирование, то есть понимание полученной информации. Понять ее можно только при условии наличия соглашения о фиксированной длине последовательностей из 0 и 1, составляющих слово в представленной информации. Такой длиной стали считать восемь символов (нулей и единиц) — 8 бит. Величина количества информации в 8 бит называется байтом. При работе с большими объемами информации для подсчета ее количества удобнее пользоваться более крупными единицами. Например, обозначают:
1 килобайт (Кбайт) = 1024 байт = 210 байт,
1 мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В десятичной системе счисления единица измерения - дит (десятичный разряд).
Пример. Сообщение в двоичной системе в виде двоичного кода 10111011 имеет объем данных VД= 8 бит = 1 байт. Сообщение в десятичной системе 275903 имеет объем данных VД=6 дит.
КОДИРОВАНИЕ информации
Код — это правило отображения одного набора объектов или знаков в другой набор знаков без потери информации. При этом можно всегда однозначно возвратиться к прежнему набору объектов или знаков.
Кодирование — это представление, моделирование одного набора знаков другим с помощью кода.
Кодовая таблица — это соответствие между набором знаков и их кодами, обычно разными числами.
В компьютерной технике используется двоичное кодирование, использующее алфавит из двух символов {0,1}. Любая обработка информации компьютером оказалась возможной из-за естественного пребывания токопроводящих элементов компьютера только в одном из двух состояний, каждое из которых можно интерпретировать двоичным нулем или единицей. В восьми разрядах, например, можно закодировать 28=256 различных целых двоичных чисел - от 00000000 до 11111111, что достаточно для того, чтобы дать уникальное 8-битовое обозначение всем символам, необходимым для набора текста. Количество элементов, которые можно закодировать словами длины n, состоящими из символов из m-элементного алфавита, мощности m (мощность алфавита - это число символов в нем), равна N = mn. Если алфавит - {0,1}, то есть n = 2, то N= 2n.