Общие принципы текстового поиска

Общие принципы текстового поискасостоят в следующем: При вводе докумен­та в систему осуществляется его индексирование и строится его пред­ставление, которое будет далее представлять этот документ в процес­се функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, поиск - каким-либо эффективным образом сопостав­ляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. Результаты обработки запроса представляются в виде множества найденных релевантных до­кументов. Указанные общие принципы поис­ка остаются неизменными.

Средства обработки естественного языка в системах текстового по­иска позволяют выделять из анализируемых текстовых документов тер­мы (слова, фразы) — носители его содержания, выявлять зависимости между этими термами и строить их концептуальные иерархии в контекс­те данной предметной области, трансформировать исходные поисковые запросы пользователей в удобную для реализации поиска форму. Для выполнения используют словари общеязыковой лексики и лек­сики предметной области.

Тезаурусы - Это словари основных понятий языка, обоз­начаемых отдельными словами или словосочетаниями, с определенными семантическими отношениями между ними. Два способа создания — вручную и автоматически. Тезаурус, созданный вручную, универсальный, независимый от конкретной коллекции документов. Он может быть общеязыковым или ориентированным на какую-либо предметную область. Является весьма доро­гостоящим, поэтому на практике часто используют авто­матическое создание тезаурусов,осуществляет­ся обычно на основе заданных коллекций текстовых документов. Автоматически построенный тезаурус поддерживает обычно простейший вид связей между лексичес­кими термами, который может быть выявлен статистически, — ассоци­ативные связи. В системах, использующих тезаурус, можно расширять запрос, включая в него синонимы перво­начально заданных пользователем ключевых слов.

Онтологии-контекст, который определя­ет основные понятия предметной области и различного рода семан­тические связи между ними, иначе говоря, спецификацией концепту­ализации предметной области системы. В простейшем случае вербального описания. Тогда оно предназначено для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном - формального определения на языках представ­ления знаний, допускающих логический вывод. Еще на ранней стадии развития систем текстового поиска начали ис­пользовать представление онтологии в форме иерархических класси­фикаторов. Такие описания на каждом иерархическом уровне подде­рживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающи­еся классы («целое-часть» или «род-вид».)

В последние годы довольно широкое распространение получило пред­ставление онтологии в виде Дублинского ядра (Dublin Core, DC) — это набор элементов метаданных, смысл кото­рых зафиксирован в спецификации определяющего его стандарта. В тер­минах значений этих элементов можно описывать содержание различ­ного рода документов. Текущая версия спецификаций Дублинского ядра DC 1.1 была приня­та в качестве стандарта DCMI в июле 1999 года. Она включает 15 эле­ментов метаданных.

2 способ описания онтологии— это представление в форме тезауру­са предметной области системы.

Для формального описания онтологии языки логики первого порядка. Они допускают возможнос­ти логического вывода. Распространён язык KIF (Knowledge Interchange Format) [33], разработанный в начале 90-х годов в Лабора­тории систем знаний (KSL) Стэнфордского университета. Формальный язык для обеспечения обмена знаниями между различными системами, основанными на знаниях.

На основе расширения языка - система Ontolingua [35, 43], поддерживающая фор­мирование онтологии в некотором каноническом формате, можно легко транс­лировать в разнообразные системы, использующие различный синтак­сис для представления знаний и обладающие различными возможностя­ми рассуждений. Одной из последних разработок, является стандарт для информационных ресурсов Web — OWL (Web Ontology Language) [44, 45]. Язык OWL ос­нован на логиках описаний. Он, несомненно, найдет применение в интеллектуальных системах поиска информационных ре­сурсов в среде Web второго поколения.

Наши рекомендации