Текстологические методы

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний.

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом [3].

При этом можно выделить две такие смысловые структуры: М1 смысл, который пытался заложить автор, это его модель мира, и М2 смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 17.13) в процессе интерпретации I. При этом Т – это словесное одеяние М1, т.е. результат вербализации V.

Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что M1 образуется за счет совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя.

текстологические методы - student2.ru

Рис. 17.13.Извлечение знаний из текстов

Встает задача выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня о том, что понимание всегда относительно. Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В [17] указаны два компонента любого научного текста. Это первичный материал наблюдений и система научных понятий в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места", или "вода". Кроме того, любой научный текст содержит заимствования из других источников (статей, монографий) и т.д.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст.

Основными моментами понимания текста являются (частично из [ 17]):

выдвижение предварительной гипотезы о смысле всего текста (предугадывание);

определение значения непонятных слов (т.е. специальной терминологии);

возникновение общей гипотезы о содержании текста (о знаниях);

уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);

формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;

корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);

принятие основной гипотезы, т.е. формирование М2

Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания.

Центральными моментами процесса I являются шаги формирования смысловой структуры или выделения "опорных", или ключевых, слов, а также заключительное схватывание "смысловых вех" в единую семантическую структуру. В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т.д.) или их сочетание. Существует гипотеза лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, т.е. отражают его тематическую структуру.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого "базового" списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с "базовым" списком целесообразно приступать к чтению специальных текстов.

Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета, и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов.

В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний.

Составление "базового" списка литературы для ознакомления с предметной областью и чтения по списку.

Выбор текста для извлечения знаний.

Первое знакомство с текстом (беглое прочтение). Для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы.

Формирование первой гипотезы о структуре текста.

Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение "смысловых вех" (компрессия текста).

Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или "сжатого" текста (реферата).

Формирование поля знаний на основании структуры текста.

Наши рекомендации