Структурированные текстовые данные
Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе — формализованный текст, таблицы, базы и хранилища данных, предоставляющие возможности поиска и фильтрации данных в таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило, требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило, представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.
В связи с этим, чрезвычайно важным фактором, определяющим успешность применения созданной базы данных, является структура описаний (совокупность атрибутов, используемых для описания объектов учета). Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придется проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.
Вопросу атрибуции данных мы посвятим отдельный подраздел в данной главе. При этом мы не будем затрагивать проблему синтеза классификаций, которые используются для декомпозиции некоторой системы или предметной области на классы сущностей, описываемых набором атрибутов — эти вопросы подробно рассматриваются в специализированной литературе, посвященной вопросам теории баз данных, их проектирования, организации процесса проектирования и создания[86]. При рассмотрении вопросов, связанных с атрибуцией данных, наше внимание будет сосредоточено на проблеме создания специфических баз данных — баз данных, предназначенных для хранения первичных материалов ИАР (сообщений) и описания источников информации, адаптированных к решению задач автоматизированного анализа ситуаций.
Однако, прежде, чем перейти к рассмотрению этого блока вопросов, рассмотрим специфику структурированных источников информации.
Мы уже указали на необходимость использования для работы со структурированными данными двухуровневых моделей интерпретации, а именно — модели организации данных (метаданных или метамодели). Располагая такой моделью, аналитик получает уникальную возможность получения специализированных массивов данных, отражающих состояние некоторого атрибута объекта анализа. В том числе, благодаря наличию структурной организации, может быть легко получен упорядоченный во времени массив численных значений некоторого параметра системы или процесса, или, наоборот — мгновенный срез состояния системы, образованный совокупностью измерений всех ее параметров.
В этом смысле, база данных представляет собой уникальный источник информации, использование которого в сочетании со средствами автоматизации ИАР способно многократно повысить продуктивность труда аналитика. Характерно, что большинство технических средств сбора информации, выражающих результаты в символьном виде, способно служить источниками только таких — специализированных данных. Как следствие, методологическое обеспечение систем анализа структурированных и числовых параметрических данных во многом совпадает. Даже в случае, когда в качестве параметров используются естественно-языковые термины, они могут рассматриваться как численные оценки значения атрибута, между которыми могут быть установлены те или иные отношения (порядка, величины, объема понятия и т. д.). В результате для обработки таких данных могут быть (хоть и с некоторыми изменениями) применены пакеты автоматизированной статистической обработки данных наблюдений, системы математического моделирования и иные программные средства, располагающие широкими возможностями для проведения статистических исследований, анализа временных рядов, спектрального анализа и так далее.
По существу, одной из задач информационной работы и является построение именно такого, структурированного ресурса для «внутреннего потребления» субъектом ИАР. Однако на пути к этому необходимо решить целый ряд сложных проблем, связанных с переходом от символьных данных произвольной семантики к символьным данным специальной семантики, обладающих метризованным словарем. Здесь, в частности, используются методы нечетких множеств, многозначной и нечеткой логики (работы А. Лукасевича, Л. Заде и их последователей).
ВЗАИМНЫЕ ПРЕОБРАЗОВАНИЯ РАЗЛИЧНЫХ ТИПОВ ДАННЫХ
Структурированные текстовые данные занимают промежуточную ступень между численными и естественно-языковыми данными. К этому виду могут быть приведены практически любые числовые данные, при этом речь идет не о преобразовании записи числа из системы цифровой записи в запись с помощью числительных натурального языка, а реальной трансляции числа в термин. Примером такого преобразования может выступать преобразование числовых данных «длина отражаемой или излучаемой объектом волны светового колебания» в текстовые данные типа «цвет объекта» и тому подобные. При этом используются не только значения величин, но и производные первого и второго порядков, результаты интегрирования, вычисления дискретной суммы и тому подобных вычислительных процедур.
Инструментом выполнения таких преобразований служат модели трансляции, задачей которых является установление взаимно однозначного соответствия между параметром (группой параметров) и термином на основе объективных критериев. В наглядной интерпретации процесс трансляции данных с частной семантикой (областью определения терминов знаковой системы) к виду данных универсальных знаковых систем может быть представлен так, как это сделано на рисунке, приведенном ниже.
Рисунок 4.1 — Графическое представление процесса трансляции.
Графическая интерпретация процесса трансляции иллюстрирует частный случай применения модели трансляции для преобразования данных, отображающих процесс, характеризующийся одним параметром, в совокупность терминов четырех классов: имена (имя процесса, имя параметра, имя состояния, предикат и характеристика предиката). С помощью подобной модели трансляции могут быть получена следующая совокупность высказываний: «Процесс (имя) пребывает в состоянии (Т1). Значение параметра (имя параметра) (характеристика крутизны Д1, наречие) (предикат П1, глагол)». Усложнение подобной модели трансляции может позволить формировать и более сложные высказывания, но это потребует усложнения тезауруса. Однако уже в таком виде при использовании системы координат параметр/время высказывания будут содержать существительные, наречия и глаголы.
Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус, состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в терминах, определенных на трех уровнях иерархии. Термин «нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В языках естественного общения такое требование в большинстве случаев не выполняется (до тех пор, пока для решения задач практической деятельности такой термин не будет введен и не заместит общеупотребительный термин).
Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков (модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели.
Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции.
Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных.