Общие принципы текстового поиска
Общие принципы текстового поискасостоят в следующем: При вводе документа в систему осуществляется его индексирование и строится его представление, которое будет далее представлять этот документ в процессе функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, поиск - каким-либо эффективным образом сопоставляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. Результаты обработки запроса представляются в виде множества найденных релевантных документов. Указанные общие принципы поиска остаются неизменными.
Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов термы (слова, фразы) — носители его содержания, выявлять зависимости между этими термами и строить их концептуальные иерархии в контексте данной предметной области, трансформировать исходные поисковые запросы пользователей в удобную для реализации поиска форму. Для выполнения используют словари общеязыковой лексики и лексики предметной области.
Тезаурусы - Это словари основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими отношениями между ними. Два способа создания — вручную и автоматически. Тезаурус, созданный вручную, универсальный, независимый от конкретной коллекции документов. Он может быть общеязыковым или ориентированным на какую-либо предметную область. Является весьма дорогостоящим, поэтому на практике часто используют автоматическое создание тезаурусов,осуществляется обычно на основе заданных коллекций текстовых документов. Автоматически построенный тезаурус поддерживает обычно простейший вид связей между лексическими термами, который может быть выявлен статистически, — ассоциативные связи. В системах, использующих тезаурус, можно расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов.
Онтологии-контекст, который определяет основные понятия предметной области и различного рода семантические связи между ними, иначе говоря, спецификацией концептуализации предметной области системы. В простейшем случае вербального описания. Тогда оно предназначено для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном - формального определения на языках представления знаний, допускающих логический вывод. Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологии в форме иерархических классификаторов. Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы («целое-часть» или «род-вид».)
В последние годы довольно широкое распространение получило представление онтологии в виде Дублинского ядра (Dublin Core, DC) — это набор элементов метаданных, смысл которых зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода документов. Текущая версия спецификаций Дублинского ядра DC 1.1 была принята в качестве стандарта DCMI в июле 1999 года. Она включает 15 элементов метаданных.
2 способ описания онтологии— это представление в форме тезауруса предметной области системы.
Для формального описания онтологии языки логики первого порядка. Они допускают возможности логического вывода. Распространён язык KIF (Knowledge Interchange Format) [33], разработанный в начале 90-х годов в Лаборатории систем знаний (KSL) Стэнфордского университета. Формальный язык для обеспечения обмена знаниями между различными системами, основанными на знаниях.
На основе расширения языка - система Ontolingua [35, 43], поддерживающая формирование онтологии в некотором каноническом формате, можно легко транслировать в разнообразные системы, использующие различный синтаксис для представления знаний и обладающие различными возможностями рассуждений. Одной из последних разработок, является стандарт для информационных ресурсов Web — OWL (Web Ontology Language) [44, 45]. Язык OWL основан на логиках описаний. Он, несомненно, найдет применение в интеллектуальных системах поиска информационных ресурсов в среде Web второго поколения.