Количественные методы оценки и характеристики информации
Количественные методы сбора данных дают ответ на вопрос «Сколько?», а информация, получаемая в результате применения количественных методов, всегда обрабатывается с использованием статистических методов анализа. Типичный результат использования количественных методов сбора информации – получение процентного распределения (например, какая часть выборки потребляет тот или иной продукт, знает данную марку и т.п.).
В основе методик количественных исследований всегда лежат четкие математические и статистические модели, что позволяет в результате иметь не мнения и предположения, а точные количественные (числовые) значения изучаемых показателей. На основе результатов количественных исследований можно рассчитывать необходимые объемы производства, рентабельность, формировать цену, параметры продукта, находить незанятые ниши рынка и многое другое.
Особенность этой группы методов заключается в их высокой формализованности, т.е. используемый инструментарий состоит из переменных, заданных исследователем заранее, он достаточно «жесткий» и практически не может меняться в рамках уже запущенного проекта. Высокая степень формализации количественных методик сочетается с их ориентацией на массовый сбор первичных данных и их статистическую обработку. При использовании количественных методов сбора информации исходной позицией является выборочная совокупность (выборка) и принцип репрезентативности.
Количественные характеристики информации делятся на синтаксическую (объем данных, количество информации), семантическую (количество информации) и прагматическую меры информации.
Синтаксическая мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.
Объём данных (VД) понимается в техническом смысле этого слова как информационный объём сообщения или как объём памяти, необходимый для хранения сообщения без каких-либо изменений. Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр (0 и 1), которыми закодировано сообщение.
В компьютерной практике слово «бит» используется также как единица измерения объёма памяти. Ячейка памяти размером в 1 бит может находиться в двух состояниях («включено» и «выключено») и в неё может быть записана одна двоичная цифра (0 или 1). Понятно, что бит – слишком маленькая единица измерения информации, поэтому пользуются кратными ей величинами. Основной единицей измерения информации является байт. 1 байт равен 8 битам. В ячейку размером в 1 байт можно поместить 8 двоичных цифр, то есть в одном байте можно хранить 28 = 256 различных чисел. Для измерения ещё больших объёмов информации используются такие величины:
1 Килобайт = 210 байт = 1024 байт.
1 Мегабайт = 210 Килобайт = 1024 Килобайт.
1 Гигабайт = 210 Мегабайт = 1024 Мегабайт.
1 Терабайт = 210 Гигабайт = 1024 Гигабайт.
Количество информации I на синтаксическом уровне определяется через понятие энтропии системы.
Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы. После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения b стала Hb(a). Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как Ib(a) = H(a) – Hb(a), т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib(a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.
Энтропия системы H(a), имеющей N возможных состояний, согласно формуле Шеннона, равна:
,
где pi – вероятность того, что система находится в i-м состоянии.
Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения N = mn, где N – число всевозможных отображаемых состояний; m – основание системы счисления (разнообразие символов, применяемых в алфавите); n – число разрядов (символов) в сообщении. Допустим, что по каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N = mn, то при равной вероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет:
I = log N = n log m – формула Хартли.
Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД, полученных по каналу связи. Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.
Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е. g = I/VД.
С увеличением g уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.
Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.
Тезаурус – это совокупность сведений, которыми располагает пользователь или система.
В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 1.5.
Рис. 1.5. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса
Рассмотрим два предельных случая, когда количество семантической информации Ic равно 0:
- при Sp → 0 пользователь не воспринимает, не понимает поступающую информацию;
- при Sp → ¥ пользователь все знает, и поступающая информация ему не нужна.
Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного. Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему: C = Ic/VД.
Прагматическая мера информации определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.
Для сопоставления введённые меры информации представим в табл. 1.8.