Неструктурированные текстовые данные
Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Задача при работе с такими источниками состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.
Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Очевидно, что такая технология уступает в быстродействии компьютерным системам, поэтому рассмотрим инструментальное обеспечение процессов поиска, отбора и экспресс анализа текстовых данных.
Начальный этап поиска, а именно, синтез поискового задания, состоит в формировании поискового словаря. После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу — этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж. К. Зипфом. Закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей.
В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):
· поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;
· адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;
· адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);
· адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.
Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:
· задачи установления факта принадлежности слова к некоторой части речи;
· задачи приведения слова к канонической форме;
· задачи выделения семантически связных цепочек слов;
· задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;
· задачи восстановления системы ссылок и умолчаний;
· задачи соотнесения термина с грамматической и семантической категориями;
· задачи связывания тематически связных фрагментов текста.
Неоднозначность распознавания и интерпретации слова и текста в целом является серьезной проблемой.
Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интер- текстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов).