Семантический подход к определению количества информации
Для определения количества информации при разработке коммуникационных сетей или определении требуемой емкости запоминающих устройств ее измерение в битах и байтах полезно, но, к сожалению, не может быть использовано при оценке информативности, например, управленческих документов. Оценивать литературное произведение или научную статью таким способом вряд ли целесообразно. Хотя в лингвистике есть задачи, для которых методы классической теории информации бывают полезны.
Осознание этого факта привело к развитию так называемой семантической меры информации, т.е. характеристики информации с точки зрения ее смысла и содержания.
Семантика – раздел языкознания, изучающий значения, смысл отдельных единиц языка, слов и оборотов речи, связь между содержанием и знаком в процессе мышления, ее зависимость от прошлого опыта получателя сообщения. Семантический аспект является предметом исследования науки о знаках – семиотики.
Семиотика – наука, исследующая свойства знаков и знаковых систем в человеческом обществе (естественных и искусственных языков) и природе (коммуникации в мире животных). Семиотика изучает знаковую структуру сообщений как абстрактного отображения реальных явлений, а семантика изучает процесс преобразования смысла сообщения в знания.
Для условного обозначения объектов и явлений, данных в ощущениях, человек стал использовать специальные символы, знаки. Смысл знака в том, какую информацию о чем-то другом, непосредственно не связанном с сигналом, он несет. Каждый знак соотносится с другим знаком, образуя знаковую систему. Вне договора (даже с самим собой) знака не существует.
Осознанное использование даже нескольких простых знаков расширяет возможности мозга и способствует его развитию, что в свою очередь обуславливает совершенствование знаков и постепенно приводит к возникновению сложных знаковых систем. И мозг, и используемые системы знаков развиваются «в направлении прогресса обоих слагаемых». На определенном этапе этой эволюции люди начинают выражать общие, абстрактные идеи, не связанные непосредственно с какими-либо ощущениями, что дает им возможность развиться в особое высшее существо. Животные не обладают способностью к абстракции, использованию каких-либо обобщающих знаков [37].
Следствием развития знаковых систем, стало появление языков, «изобретенных» человеком для реализации своих мыслительных способностей.
Все знаки языка тесно связаны между собой, и значение каждого зависит от соотношения других элементов. Существует сложное взаимодействие слов, поддерживающих друг друга. Это позволяет с помощью ограниченного набора средств выразить неограниченное количество смыслов.
Язык можно считать главной, универсальной знаковой системой, так как его появление стало основой развитие человеческой цивилизации и с его помощью можно пересказать, описать содержание большинства других знаковых систем (возможно, кроме музыки и абстрактного искусства).
Многие знаковые системы активно используют естественный язык для расширения своих возможностей: требуются комментарии к математическим выкладкам, необходимо давать названия объектов на географических и других картах, составлять спецификации к техническим чертежам и пр.
Язык – средство информационного отображения, обозначения, кодирования объектов реального мира. Он позволяет охватывать, смоделировать и внешний, и внутренний мир человека, тончайшие нюансы его переживаний.
Язык – средство базовых информационных процессов – мышления и памяти. На нем мы думаем, творим, принимаем решения. Человек начинает себя помнить с возраста, когда достаточно хорошо овладел родным языком.
Язык – главное средство общения, информационных коммуникаций, без которых не смогло бы зародится человеческое общество. Интересно, что все известные к настоящему времени древние племена, на какой бы низкой стадии развития они не находились, имеют свой язык.
Язык – результат многовекового творчества, длительной эволюции. С одной стороны, это живая развивающаяся знаковая система, позволяющая отображать все новейшие образования, а с другой, система достаточно консервативная: практически все модные «уродства и искажения» довольно быстро исчезают и забываются.
Методы точного количественного определения смыслового содержания информации, выраженной с помощью известных знаковых систем, в настоящее время еще не разработаны. Однако можно изложить некоторые рациональные соображения и подходы к решению этой проблемы.
Семантическая мера должна учитывать не только структуру и содержание самого сообщения, взятого изолированно от получателя, но еще и запас знаний получателя, т.е. что нового несет получателю сообщение по сравнению с тем, что он уже знал или предполагал. Информативность сообщения измеряется тем вновь приобретенным знанием, которое возникает у получателя в результате усвоения сообщения.
Количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь понятное смысловое содержание для компетентного получателя и быть бессмысленным для некомпетентного.
На этой идее – оценке информационной содержательности сообщений с учетом «запаса знаний» (тезауруса) получателя или приемника сообщений основывается подход, предложенный Ю.А.Шрейдером.
Тезаурусом (от греческого «сокровище») называют словарь, в котором указаны не только значения отдельных слов, но и смысловые связи между ними. Тезаурус – это совокупность сведений, знаний, которыми располагает получатель информации (человек или система).
В данном изложении под тезаурусом будет пониматься некий обобщенный справочник, определяющий уровень знаний получателя сообщений.
При этом очевидно, что сообщения, которые содержат новую для получателя семантическую информацию, изменяют, обогащают его тезаурус.
Если сообщение не вносит ничего нового в тезаурус получателя, то естественно считать, что смысловая, семантическая информация, которая содержится в этом сообщении, равна нулю. Если одно из двух сообщений изменяет тезаурус весьма незначительно, а другое вносит в него существенные изменения, то естественно считать, что второе сообщение значительно содержательнее, несет в себе значительно большую семантическую информацию. При этом под изменением тезауруса следует понимать не только появление новых понятий, но и установление новых связей между ними, ликвидацию устаревших понятий или связей и т.д.
Можно наглядно показать количественную зависимость семантической информации, которая содержится в одном и том же сообщении, от тезауруса получателя этой информации. Пусть рассматриваемое сообщение представляет собой формулу для вычисления определенного интеграла от логарифмической функции:
.
Для того чтобы извлечь из этого сообщения какую-либо семантическую информацию Ic, получатель должен обладать некоторым тезаурусом Т в данной области знания, причем зависимость Ic = F(Т) можно изобразить графически в виде кривой, имеющей максимум (рис.3).
Дошкольник Школьник Студент Инженер Профессор математики
Рис. 3. Зависимость количества семантической информации в сообщении
от тезауруса получателя
В самом деле, для дошкольника младшего возраста приведенная формула не несет никакой информации, но ребенок возраста 5—7 лет сможет распознать в ней отдельные элементы, например цифры 0, 1, 8.
Школьник младших классов, обладающий большим тезаурусом, обнаружит в этой формуле равенство двух дробей, хотя не поймет еще ни знака интеграла, ни натурального логарифма, ни буквы π.
Старший школьник разберется во всей этой символике, а десятиклассник поймет, что это формула интегрирования. Наибольшую информацию из приведенного выражения извлечет студент 1—2-го курса. По мере дальнейшего возрастания тезауруса новая информация, извлеченная из этого выражения, будет уменьшаться и для профессора-математика будет близка к нулю.
Впрочем, и профессор может нетвердо помнить наизусть формулы интегрирования, и поэтому приведенная формула может и для него нести некоторую небольшую информацию, способствующую вспоминанию или закреплению известных сведений.
Таким образом, одно и то же математическое выражение ничего не говорит человеку, совершенно не знающему математической символики и не имеющему представления об элементарных математических законах и соотношениях (Т = 0, Ic= 0); оно же весьма содержательно для человека, обладающего соответствующей математической подготовкой, но ранее не знавшего сообщенных ему математических соотношений (Т > 0, Ic = Ic макс), и опять становится мало содержательным для высокообразованного математика, который «все это уже давно знает» (Т à Т макс; Icà 0) [21,13].
В области организационного управления и экономики исторически сложилось огромное разнообразие форм документов, а также существует неоднозначность смысла многих терминов, показателей и их кодовых обозначений. Решение проблем рационального представления экономической информации составляет содержание экономической семиотики. В рамках данного научного направления на основе количественного и качественного анализа информационных потоков, обслуживающих экономическую деятельность предприятий и отраслей, делаются попытки формирования структуры тезауруса экономических систем, т.е. совокупности понятий и их взаимосвязей, на основе которых и должны строиться языки управления этими системами. Ведется работа над созданием эффективных систем управленческой документации, проблемно-ориентированных алгоритмических языков, классификаторов. Другими словами, ведется поиск эффективной знаковой системы для отображения информационных процессов в области организационного управления.