Интерпретация данных
Зададимся вопросом, что такое данные и как мы к ним относимся? Интуитивно ясно, что под данными мы подразумеваем какое-либо сообщение, наблюдаемый факт, сведения о чем-либо, результаты эксперимента и т.п. Иначе говоря, данные - это всегда конкретность, представленная в определенной форме (числом, записью, сообщением, таблицей и т.д.). Сами по себе данные никакой ценности не представляют. На самом деле, как вы отнесетесь, например, к следующим данным:
(1) - "тридцать семь с половиной";
(2) - "2 + 2 = 4";
(3) - "Петров стал директором".
Первое вызовет недоумение, второе - ощущение тривиальности (это знает каждый), третье - размышления, кто такой Петров? Во всех приведенных примерах данные неинформативны (хотя по разным причинам), и для того, чтобы придать им информативность, т.е. превратить их в информацию, необходимо осуществить интерпретацию данных.
Интерпретация - процесс превращения данных в информацию, процесс придания им смысла. Этот процесс зависит от многих факторов: кто интерпретирует данные, какой информацией уже располагает интерпретатор, с каких позиций он рассматривает полученные данные и т.д. Процесс интерпретации может осуществляться человеком или группой лиц, при этом он может быть творческим (например, музицирование по нотной записи) или формальным (определение времени по часам). Такой процесс может осуществляться биологическими объектами (условные рефлексы собак, общение дельфинов), многими устройствами технической автоматики (обнаружение сигнала от цели в радиолокации с последующими действиями) и, конечно, компьютером. Абстрактность информации в отличие от конкретности данных заключается в том, что процесс интерпретации в общем случае не может быть определен формально, в то время как данные всегда существуют в какой-то определенной форме. Между данными и информацией в общем случае нет взаимно-однозначного соответствия. Например, формально различные сообщения "до завтра" и "see you tomorrow" [1] несут одну и ту же информацию. Разные знаки "x" и "*" могут содержательно обозначать одно и то же - операцию умножения, формально различные строки "21" и "XXI" определяют одно и то же число (в различных системах счисления).
С другой стороны одни и те же данные могут нести совершенно различную информацию разным получателям (разным интерпретаторам). Например, знак "I" может интерпретироваться как буква "ай" в английском алфавите или как римская цифра 1, знак "+" может интерпретироваться как операция сложения или операция объединения множеств в зависимости от контекста. Кивок головой сверху вниз обычно обозначает "Да", а покачивание - "Нет", но не во всех странах (в Болгарии и Греции это не так). На доске объявлений по размену квартир я увидел объявление со следующими данными: "(2+2)=(3+1)", что означало "Меняю две двухкомнатных на трехкомнатную и однокомнатную",- можно ли было бы предположить такую интерпретацию этих данных, например, в учебнике по арифметике?
Эти примеры показывают, что интерпретация данных зависит от многих дополнительных объективных факторов (в этих примерах - контекст, страна, место), но интерпретация может зависеть и от субъективных факторов. Например, один и тот же цвет человек с нормальным зрением воспринимает одним образом, а дальтоник другим. Приведенные примеры альтернативной интерпретации одних и тех же данных иллюстрируют понятие полиморфизма (множественной интерпретации), которое в конечном счете и определяет абстрактный характер этого процесса.
Наконец, еще один важный аспект интерпретации. В любом достаточно большом наборе данных есть особые позиции (знаки, ключевые слова, признаки), которые управляют процессом интерпретации и потому имеют особое значение, во многом определяющее ценность и важность получаемой информации. Классический пример: сообщение "Казнить нельзя, помиловать". Положение запятой в этом примере (перед словом "нельзя" или после) радикально меняет информационное содержание данных. Можно ли в этом отношении сравнить запятую в этом сообщении с буквой "н.", например? Потеря или искажение последней легко восстанавливается по контексту, потеря запятой сводит информативность сообщения в целом к нулю. Еще один пример. Допустим, вы располагаете следующим фрагментом таблицы:
ЪДДДДДДДДДДДВДДДДДДДДДДДВДДДДДДДДДДДВДДДДДДДДДДДДВДДДДДДДДДДДДДї
і Товар і Станок і Дрель і Фреза і Двигатель і
ГДДДДДДДДДДДЕДДДДДДДДДДДЕДДДДДДДДДДДЕДДДДДДДДДДДДЕДДДДДДДДДДДДДґ
АДДДДДДДДДДДБДДДДДДДДДДДБДДДДДДДДДДДБДДДДДДДДДДДДБДДДДДДДДДДДДДЩ
Рис.1.1
Потеря слова "Стоимость" во второй строке делает невозможной правильную интерпретацию числового материала всей таблицы, в то время как потеря слова "Товар" легко восстанавливается по контексту.
Таким образом, данные - это набор неоднородных ключевых слов (позиций, знаков и т.п.), несущих информацию разной степени ценности.