Неструктурированные текстовые данные
Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств. Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.
Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.
Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.
Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.
Тем не менее, начальный этап поиска, а именно, синтез поискового задания, требует привлечения интеллектуальных усилий аналитика.
Существует один, возможно, экстравагантный, но эффективный подход к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований: он заключается в использовании… разнообразных словарей, предназначенных для любителей отгадывания кроссвордов. Учитывая, что систематические тезаурусы представляют собой достаточно редкое явление (рынок сбыта таких изданий весьма специфичен и тиражи невысоки), такие словари могут служить неплохим инструментом для подобных исследований. Зная цель исследования, по подобному словарю аналитик может отобрать ключевые слова, наиболее ярко свидетельствующие о принадлежности текста к заданной отрасли.
После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу — этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж.К. Зипфом (в этой книге мы уже упоминали закон Зипфа-Мандельброта или принцип экономии в лингвистике). В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон частот встречаемости слов — именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста. Однако ориентация этого метода на такую единицу как слово, несколько сокращает полезность этого метода, поскольку человеку свойственно оперировать не столько словами, сколько терминами (то есть, сочетаниями слов, обеспечивающими наилучшее различение описываемых сущностей).
Так или иначе, но закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей. Наибольшее распространение эти методы получили в поисковых системах ГСТК Интернет. Поэтому, если вы хотите получить наилучшие результаты при поиске информации с применением специальных поисковых серверов, вам имеет смысл вооружиться настольной компьютерной системой, на которой установлено программное обеспечение, реализующее функцию генерации поискового словаря по той же схеме (с теми же критериями), что реализуется поисковым сервером. В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):
- поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;
- адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;
- адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);
- адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.
Услуга эвристического поиска, основанного на использовании систем искусственного интеллекта, формирующих расширенный запрос на основе применения специализированных отраслевых тезаурусов и семантических сетей, несмотря на все анонсы и заявления владельцев поисковых сервисов, в ГСТК Интернет на сегодня практически не представлена. Использование таких поисковых систем является прерогативой серьезных организаций, специализирующихся в отрасли ИАР, и располагающих бюджетом, достаточным для закупки профессиональных поисковых систем или проведения собственных дорогостоящих исследований в области компьютерной лингвистики.
Если отвлечься от ГСТК Интернет и обратиться к проблеме поиска заданного текста на заранее сформированном универсальном массиве текстов, размещенных на отдельном компьютере или в сегменте локальной вычислительной сети, то тут следует обратиться к классу настольных и серверных поисковых систем. На отечественном рынке программного обеспечения системы подобного класса также представлены. Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «МедиаЛингва». Разработки этой фирмы, такие как «Следопыт», «Классификатор» и «Аннотатор», обеспечивают комплекс решений, позволяющих осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование. Схожими возможностями обладают разработки НПИЦ «Микросистемы», в частности — программный продукт «TextAnalyst». Данная программа использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначена для решения задачи автоматического реферирования документов; функции поиска в этой системе также предусмотрены, однако в большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.
В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики, нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием — аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK — Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией.
Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:
- задачи установления факта принадлежности слова к некоторой части речи;
- задачи приведения слова к канонической форме;
- задачи выделения семантически связных цепочек слов;
- задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;
- задачи восстановления системы ссылок и умолчаний;
- задачи соотнесения термина с грамматической и семантической категориями;
- задачи связывания тематически связных фрагментов текста.
Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии (многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение, хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.
Сегодня за рубежом (увы, не у нас) на решение этих проблем затрачиваются значительные средства. Например, для решения проблем, связанных с автоматизацией обработки и анализа текстов, в бюджете американской военной исследовательской организации DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно. Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе — NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий — см. далее) эксперта-аналитика.
Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интер- текстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов и подходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем — суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы «объяснить» программе, как поступать в таком случае.