Инженерия знаний. Типы решаемых задач.
Инженерия знаний (англ. knowledge engineering) — область наук об искусственном интеллекте, связанная с разработкой экспертных систем и баз знаний. Изучает методы и средства извлечения, представления, структурирования и использования знаний.
В настоящее время это также предполагает создание и обслуживание подобных систем (Кендэл, 2007). Это также тесно соприкасается с разработкой программного обеспечения и используется во многих информационных исследованиях, например таких, как исследования искусственного интеллекта, включая базы данных, сбор данных, экспертные системы, систем поддержки принятия решений и географические информационные системы. ИЗ связана с математической логикой, также используемой в разных научных дисциплинах, например в социологии где «подопытными» являются люди, а цели исследований — понимание, как работает человеческая логика на примере взаимоотношений в обществе.
Представление данных и знаний.
Информация, с которой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурная информация овеществлена в программах, которые выполняются в процессе решения задач, декларативная информация - в данных, с которыми эти программы работают. Стандартной формой представления информации в ЭВМ является машинное слово, состоящее из определенного для данного типа ЭВМ числа двоичных разрядов - битов. Машинное слово для представления данных и машинное слово для представления команд, образующих программу, могут иметь одинаковое или разное число разрядов. В последнее время для представления данных и команд используются одинаковые по числу разрядов машинные слова. Однако в ряде случаев машинные слова разбиваются на группы по восемь двоичных разрядов, которые называются байтами.
Одинаковое число разрядов в машинных словах для команд и данных позволяет рассматривать их в ЭВМ в качестве одинаковых информационных единиц и выполнять операции над командами, как над данными. Содержимое памяти образует информационную базу.
В большинстве существующих ЭВМ возможно извлечение информации из любого подмножества разрядов машинного слова вплоть до одного бита. Во многих ЭВМ можно соединять два или более машинного слова в слово с большей длиной. Однако машинное слово является основной характеристикой информационной базы, т.к. его длина такова, что каждое машинное слово хранится в одной стандартной ячейке памяти, снабженной индивидуальным именем - адресом ячейки. По этому имени происходит извлечение информационных единиц из памяти ЭВМ и записи их в нее.
Параллельно с развитием структуры ЭВМ происходило развитие информационных структур для представления данных. Появились способы описания данных в виде векторов и матриц, возникли списочные структуры, иерархические структуры. В настоящее время в языках программирования высокого уровня используются абстрактные типы данных, структура которых задается программистом. Появление баз данных (БД) знаменовало собой еще один шаг на пути организации работы с декларативной информацией. В базах данных могут одновременно храниться большие объемы информации, а специальные средства, образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать с данными, при необходимости извлекать их из базы данных и записывать их в нужном порядке в базу.
По мере развития исследований в области ИС возникла концепция знаний, которые объединили в себе многие черты процедурной и декларативной информации.
В ЭВМ знания так же, как и данные, отображаются в знаковой форме - в виде формул, текста, файлов, информационных массивов и т.п. Поэтому можно сказать, что знания - это особым образом организованные данные. Но это было бы слишком узкое понимание. А между тем, в системах ИИ знания являются основным объектом формирования, обработки и исследования. База знаний, наравне с базой данных, - необходимая составляющая программного комплекса ИИ. Машины, реализующие алгоритмы ИИ, называются машинами, основанными на знаниях, а подраздел теории ИИ, связанный с построением экспертных систем, - инженерией знаний.
Данные.
В информатике Данные — это результат фиксации, отображения информации на каком-либо материальном носителе, то есть зарегистрированное на носителе представление сведений независимо от того, дошли ли эти сведения до какого-нибудь приёмника и интересуют ли они его.
Данные — это и текст книги или письма, и картина художника, и ДНК.
Данные, являющиеся результатом фиксации некоторой информации, сами могут выступать как источник информации. Информация, извлекаемая из данных, может подвергаться обработке, и результаты обработки фиксируются в виде новых данных.
Данные могут рассматриваться как записанные наблюдения, которые не используются, а пока хранятся.
Знания.
Знание — в теории искусственного интеллекта и экспертных систем — совокупность информации и правил вывода (у индивидуума, общества или системы ИИ) о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах использования их для принятия решений. Главное отличие знаний от данных состоит в их структурности и активности, появление в базе новых фактов или установление новых связей может стать источником изменений в принятии решений.
Параллельно с развитием структуры компьютеров происходит развитие информационных структур для представления данных. Знания имеют более сложную структуру чем данные.
Знания
З1. Знания находятся в человеческой памяти.
З2. Знания материализованные.
З3. Совокупность З1 и З2.
З4. Знания на языке представления знаний.
З5. Базы знаний.
Данные
Д1. Результат наблюдения над объектами или данными в памяти человека.
Д2. Фиксация данных на материальном носителе.
Д3. Модель данных.
Д4. Данные на языке описания данных.
Д5. БД.
Обычно рассматривают 1,3,5.
Знания задаются двумя способами:
Экстенсионально – через набор конкретных фактов, касающихся данной предметной области.
Интенсионально – через свойства данной предметной области и систему связи между атрибутами.
Свойства знаний:
1. Внутренняя интерпретируемость знаний – каждая информационная единица (и.е.) должна иметь уникальное имя, по которому ИИС будет находить ее и отвечать на запросы, в которых упомянуто ее имя.
2. Структурируемость – и.е. должна обладать гибкой структурой, т.е. для них должен выполнятся «принцип матрешки» каждая и.е. может быть включена а состав другой и.е. и наоборот.
3. Связность – в информационной базе между и.е. должна быть предусмотренная возможность восстановления различных взаимосвязей. При этом различают следующие связи (отношения):
a. связи структуризации – задается иерархия в и.е.;
b. функциональные отношения – описывают информацию о функциях;
c. казуальные отношения – используются для задания причинно-следственной связи;
d. семантические связи – все остальное.
4. Семантическая метрика – позволяет задать отношения, которые характеризуют ситуационную близость между и.е., другими словами определяет ассоциативную связь.
5. Активность знаний – с момента появления компьютеров используемые в них и.е. разделены на данные и команды. Данные пассивны, а команды – активны.
Классификация знаний
Поверхностные – совокупность эмпирических ассоциаций и причинно-следственных отношений между понятиями предметной области.
Глубинные – абстракции, образы, аналогии в которых отражается понимание структуры предметной области, назначение и взаимосвязь отдельных понятий.
Жесткие знания позволяют получать однозначные четкие рекомендации при заданных начальных условиях. Мягкие знания допускают множественные, «размытые» решения и различные варианты рекомендаций.