Приобретение и формализация знаний
Приобретением знаний называется выявление знаний из источников и преобразование их в нужную форму, а также перенос в базу знаний ЭС. Источниками знаний могут быть книги, архивные документы, содержимое других баз знаний и т.п., т.е. некоторые объективизированные знания, переведенные в форму, которая делает их доступными для потребителя. Другим типом знаний являются экспертные знания, которые имеются у специалистов, но они не зафиксированы во внешних по отношению к нему хранилищах.
Экспертные знания являются субъективными. Еще одним видом субъективных знаний являются эмпирические знания. Такие знания могут добываться ЭС путем наблюдения за окружающей средой.
Для разработки методологии приобретения знаний необходимо различать две формы репрезентации знаний. Одна форма отражает то, как и в каких моделях хранятся эти знания у человека — эксперта. При этом эксперт не осознает полностью, как организована его модель знаний. Другая форма связана с тем, как инженер по знаниям собирается эти знания представлять и описывать в рамках проектируемой ЭС. От степени адекватности и согласованности этих двух моделей и зависит эффективность процесса приобретения знаний.
В когнитивной психологии различают несколько присущих человеку форм представления знаний — представления класса понятий через элементы, представления понятия класса с помощью базового прототипа, с помощью признаков и т.п.
Кроме понятий представляются и отношения между ними. Как правило, отношения между понятиями определяются процедурным способом, а отношения между составляющими понятий (определяющими структуру понятий) — декларативным. Наличие двух моделей заставляет в моделях представления знаний иметь одновременно обе компоненты, например семантическую сеть и продукционную систему.
Процесс приобретения знаний — наиболее сложный этап разработки ЭС, поскольку на этом этапе необходимо решать не только технические и специальные проблемы, а также рассматривать психологические, лингвистические и гносеологические аспекты проблемы.
В общем случае процесс приобретения знаний можно разделить на этапы:
- Определяется необходимость модификации (расширения) знаний.
- Осуществляется извлечение новых знаний.
- Новое знание преобразуется в форму представления ЭС.
- Знания модифицируются.
На ранних этапах развития представлений о механизмах хранения и применения знаний сами знания не отделялись от механизма вывода. При таком подходе программист, занимающийся созданием ЭС, вынужден был детально изучать предметную область, подбирать или проектировать подходящую модель данных, реализовывать ее и самому наполнять знаниями. Ясно, что подняться до уровня эксперта созданная таким образом система не могла.
По мере развития представлений о знаниях появилась идея об отделении базы знаний от механизмов вывода знаний. Для создателей баз знаний этот подход существенно упростил модификацию знаний и поиск и устранение противоречий. При таком подходе задачи 1 и 2 решались уже совместно экспертом и инженером по знаниям, задача 3 — инженером по знаниям, и 4 — самой ЭС. Определим такую систему как систему извлечения знаний.
С появлением интеллектуальных редакторов баз знаний и введения в экспертные системы средств формирования и использования метазнаний (или, иначе говоря, метамоделей данных) эксперту был дан мощный диалоговый инструмент управления базой знаний, в результате чего нагрузки на создателей ЭС перераспределились следующим образом: задачи 1 и 2 решаются экспертом (самостоятельно или с помощью инженера по знаниям), задачи 3 и 4 решаются экспертной системой.
Заманчивой представляется перспектива при наполнении ЭС знаниями о предметной области смоделировать процесс обучения мыслящего существа. Это можно сделать по следующей схеме.
Фактические данные из предметной области (включающие выводы экспертов об имевших место ситуациях) поступают на вход ЭС и там соответствующим образом интерпретируются. Эту задачу может выполнять, например, индуктивная программа. Она и будет осуществлять получение глубинных знаний из примеров ситуаций и анализа сценариев и загружать их в базу знаний экспертной системы. Развивая эту идею, можно предложить в качестве входной информации для обработки тексты на естественном языке (словари, инструкции, учебные пособия, научные труды и т.п.). Для успешного решения этой проблемы необходимо спроектировать интегрированную базу знаний, включающую как знания о предметной области потенциальной ЭС, так и метазнания, и, что особенно важно, знания о языке, которые будут использоваться на этапе анализа входных текстов для извлечения прикладных знаний. Такую систему можно назвать системой формирования (приобретения) знаний.
Методы извлечения знаний
Рассмотрим три режима взаимодействия инженера по знаниям с экспертом-специалистом: протокольный анализ, интервью и игровая имитация профессиональной деятельности. Протокольный анализ заключается в фиксации “мыслей вслух” эксперта во время решения проблемы и в последующем анализе полученной информации. В режиме интервью инженер по знаниям ведет с экспертом активный диалог, направляя его в нужную сторону. При игровой имитации эксперт помещается в ситуации, похожие на те, в которых протекает его профессиональная деятельность. Наблюдая за его действиями, инженер по знаниям формирует свои соображения об экспертных знаниях, которые впоследствии могут быть уточнены экспертом в режиме интервью.
Все эти способы имеют свои положительные и отрицательные стороны. При анализе протоколов инженеру по знаниям бывает сложно отделить важные, ключевые понятия от тех, которые упоминаются и высказываются экспертом случайно, по ассоциации. Рассуждения могут опускать важные этапы цепочки выводов, так как эксперт может считать это для себя само собой разумеющимся. Таким образом, этап интервью является необходимым при любой схеме.
Наиболее распространены три стратегии интервьюирования: разбиение на ступени, репертуарная решетка и подтверждение сходства.
При разбиении на ступени эксперту предлагается назвать наиболее важные, по его мнению, понятия предметной области и указать между ними отношения структуризации. Эти понятия фиксируются как базовые. Стратегия направлена на создание иерархии понятий предметной области, выделение в понятиях тесно связанных между собой групп — кластеров.
Стратегия репертуарной решетки направлена на выявление характеристических свойств понятий, позволяющих отделять одни понятия от других. Методика состоит в предъявлении эксперту троек понятий с предложением назвать признаки для каждых двух понятий, которые отделяли бы их от третьего. Так как каждое понятие входит в несколько троек, то на основании такой процедуры происходит уточнение объемов понятий и формируются комплексы понятий, с помощью которых эти понятия могут идентифицироваться в базе знаний.
Стратегия подтверждения сходства состоит в том, что эксперту предлагается установить принадлежность каждой пары понятий к некоторому отношению сходства (толерантности). Для этого эксперту задается последовательность достаточно простых вопросов, цель которых заключается в уточнении того понимания сходства, которое вкладывает эксперт в утверждение о сходстве двух понятий предметной области.
Процесс взаимодействия инженера по знаниям (аналитика) с экспертом-специалистом включает три основных этапа:
- Подготовительный этап. Здесь необходимо достичь должного уровня заинтересованности эксперта и аналитика в результатах своих совместных усилий. Аналитику необходимо глубоко познакомиться со специальной литературой по предметной области. Необходимо также достичь согласованности психических и личностных качеств эксперта и аналитика.
- Установление лингвистического альянса. Вырабатывается словарная основа базы знаний, определяется уровень детализации и взаимосвязи понятий.
- Гносеологический этап. Выясняются закономерности, присущие предметной области, условия достоверности и истинности утверждений, структурирование за счет введения отношений. Это основной этап взаимодействия.
Процесс извлечения знаний начинается с получения от эксперта поверхностных знаний (таких, например, как представление признаков) и постепенно направляется аналитиком на формирование глубинных структур и более абстрактных понятий (таких, как прототипы).
Машинно-ориентированное получение знаний
Этот вид приобретения знаний экспертной системой называют также обучением экспертной системы. При этом активно используются модели обучения, известные в физиологии и психологии. Первые модели опирались на чисто физиологические методы обучения, позже появились более гибкие ассоциативные, согласно которым всякое обучение есть установление ассоциативных связей в нейроноподобных сетях.
На смену ассоциативной модели пришла лабиринтная модель, опирающаяся на идей когнитивной психологии. Модель предполагает, что процесс обучения состоит в эвристическом поиске в лабиринте возможных альтернатив и оценивании движения по лабиринту на основе локальных критериев. Наиболее исследованными на сегодняшний день являются модели, относящиеся к обучению по примерам.
Обучение как математическая задача может быть отнесено к классу оптимизационных проблем поиска описаний.
Индивидуальная оптимизационная задача L есть пятерка:
< X, Y, p, F, J>,где
X и Y — множество входных и выходных записей;
p — функция X - Y;
F — множество отношений (f = X*Y для всех f из F);
J — оператор качества для F, показывающий для каждого f из F степень его близости к p.
Задача состоит в отыскании оптимального по J описания f из F.
Спецификация задачи часто оказывается неполной. Например, оператор качества J может быть плохо формализуемым, информация об отношении p может задаваться только примерами пар (x1, y1), (x2, y2), ..., (xn, yn), для которых выполняется функция p. Для задач, относящихся к обучению, характерна неполнота рассматриваемой спецификации.
Для решения задачи обучения можно применить следующие методы:
- теория статистических гипотез;
- теория параметрической адаптации;
- теория индуктивного вывода.
Человек или машина могут получать знания многими способами.
Можно вывести нужную информацию как логическое следствие имеющихся знаний, получить ее модификацией существующих знаний, рассчитывая на аналогичность ситуации, попытаться вывести общий закон из имеющихся примеров. Некоторые задачи, относящиеся к получению знаний по примерам:
- Простейшее прогнозирование (линейные зависимости выходных значений от входного воздействия).
- Идентификация (синтез) функций. В этом методе исследуется “черный ящик” и синтезируется общая функция.
- Расшифровка языков. Поиск правил синтеза текстов некоторого языка на основе анализа конкретных текстов на этом языке (расшифровки кодов, систем письменности и т.д.). Задачей такого же типа является обучение распознаванию образов.
- Индуктивный вывод. В широком смысле это направление охватывает все вышеописанные, а в узком понимании это проблема расшифровки языков.
- Синтез с дополнительной информацией. В качестве дополнительной информации может рассматриваться структура примеров, их родовидовая принадлежность, контрпримеры и т.п.
Корректными способами генерации гипотез считаются такие, которые в пределе (при исчерпании всех примеров) приводят к решению задачи.
Предположение о предельной стабилизации гипотез является основой гипотетико-дедуктивного подхода, согласно которому решение задачи формирования знаний включает 4 этапа:
- наблюдение: сбор и накопление исходных данных (примеров);
- обобщение: выдвижение “разумной” гипотезы H об искомом описании;
- дедукцию: выдвижение различных следствий из H или прогнозов на основе ее;
- подтверждение: проверка прогнозов на совместимость с результатами новых наблюдений — оценка гипотезы H; если H подтверждается, то она остается в качестве текущей гипотезы и весь процесс повторяется сначала, в противном случае гипотеза H заменяется новой.
Считается, что процесс находит искомое описание, если оно было выдвинуто в качестве гипотезы при каком-либо прохождении второго этапа и при следующих прохождениях этого этапа не менялось.
В процессе выдвижения гипотез выясняются “разумные” способы выдвижения и критерии подтверждения гипотез.
Решение проблемы извлечения знаний в действующих экспертных системах
Методы интервьюирования эксперта предметной области знаний с использованием нескольких различных стратегий применены при создании системы TEIRESIAS. В диагностической системе MORE предложена методика интервьюирования, направленная на выяснение следующих сущностей — гипотез, симптомов, условий, связей и путей. Гипотеза — событие, идентификация которого имеет своим смыслом диагноз. Симптом — событие, являющееся следствием существования гипотезы, наблюдение которого приближает последующее принятие гипотезы. Условие имеет диагностическое влияние на некоторые другие события. Связи — соединения сущностей. Путь — выделенный тип связи, который соединяет гипотезы с симптомами. В соответствии с этим используются следующие стратегии интервью — дифференциация гипотез, различение симптомов, симптомная обусловленность, деление пути и т.д.
В системе KRITON для приобретения знаний используются два источника — эксперт с его знаниями, полученными на практике (эти знания, как правило, неполны, отрывочны и плохо структурированы), и книжные знания, документы, описания, инструкции. Для извлечения знаний из первого источника в KRITON применена техника интервью, использующая методы репертуарной решетки и разбиения на ступени. Для выявления процедурных знаний эксперта в KRITON применен метод протокольного анализа.
Анализ текста используется в KRITON для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций.
В системах SIMER и ДИАПС основным методом приобретения знаний является автоматизированной интервьюирование эксперта, которое управляет знаниями, приобретенными системой. В этих системах не выявляется предварительная модель области.
Предполагается, что на множестве объектов могут быть заданы ряд отношений из известного (конечного) множества: элемент-множество, часть-целое, пример-прототип, отношения структурного сходства, структурной иерархии и др. На выяснение свойств отношений и направлено интервью.
СПИСОК СОКРАЩЕНИЙ И АББРЕВИАТУР
АБ — аббревиация
АВС — ассоциативно-вербальная сеть
АН — антонимия
АО — акционерное общество
АОЗТ — акционерное общество закрытого типа
АПК — аппаратно-программный комплекс
АСОИУ — автоматизированная система обработки информации и управления
АСУ — автоматизированная система управления
БД — база данных
БЗ — база знаний
БСОПК — банковская система обслуживания пластиковых карточек
ВР — временное отношение
ВТ — вычислительная техника
ВУЗ — высшее учебное заведение
высш. — высшее (образование), высшая (школа)
Гбайт — Гигабайт
ГИС — геоинформационная система
гл. — глагол
ГСС — глубинная синтаксическая структура
ДНК — дизоксирибонуклеиновая кислота
ДРС — Древнерусский словарь
ЕЯ — естественный язык
изд. — издание
ИИ — искусственный интеллект
ИПС — информационно-поисковая система
ИРЯ — Институт русского языка им. В.В.Виноградова РАН
ИС — информационная система, инструментальные средства
ИУ — факультет “Информатика и системы управления”, МГТУ
Кбайт — Килобайт
Кбит — Килобит
кн. — книга
КП — отношение “класс–подкласс”
КР — курсовая работа
ЛР — лабораторная работа
ЛС — локальная сеть
Мбайт — Мегабайт
МГАП — Московская государственная академия печати (устар.)
МГТУ — Московский государственный технический университет им. Н.Э. Баумана
МГУП — Московский государственный университет печати
МГц — Мегагерц
МИФИ — Московский инженерно-физический институт
ММВБ — Московская межбанковская валютная биржа
МПС — международная пластиковая система
НИОКР — научно-исследовательская и опытно-конструкторская работа
НИР — научно-исследовательская работа
НПП — научно-производственное подразделение
ОГВВЗ — облигации государственного внутреннего валютного займа
ОЕЯ — ограниченный естественный язык
ОЗУ — оперативное запоминающее устройство
ООП — объектно-ориентированное программирование
ОП — оперативная память
ОС — операционная система, образовательная система
ОУ — объект управления
ПК — персональный компьютер
ПО — предметная область
ПСС — поверхностная синтаксическая структура
ПЭВМ — персональная ЭВМ
РАН — Российская академия наук
РВ — отношение “род–вид”
ред. — редакция
рис. — рисунок
РП — рабочая память
РСУБД — распределенные СУБД
рус. — русский
РФ — Российская Федерация
САИ — Система анализа изображений
СИ — синонимия
СК — сокращение
Сост. — составитель (-и)
СУБД — система управления базами данных
США — Соединенные Штаты Америки
ТВ — телевизор (телевидение)
ТОО — товарищество с ограниченной ответственностью
ул. — улица
ЦП — центральный процессор
ЧСС — частота сердечных сокращений
ЭВМ — электронно-вычислительная машина
ЭЛТ — электронно-лучевая трубка
ЭС — экспертная система
ЯОФ — язык описания фреймов
ЯПЗ — язык представления знаний
16.2. ЭКСПЕРТНЫЕ СИСТЕМЫ: СТРУКТУРА И КЛАССИФИКАЦИЯ