Глава 8. базы знаний и искусственный интеллект
0сновными проблемами искусственного интеллекта являются представление и обработка знаний. Решение этих проблем состоит как в разработке эффективных моделей представления знаний, методов получения новых знаний, так и в создании программ, устройств, реализующих эти модели и методы.
Искусственный интеллект и информатика неразрывно связаны. Поскольку, во-первых, информатика является основой для моделирования информационных процессов, происходящих в интеллектуальных системах, и, во-вторых, она является инструментом для проверки гипотез новых идей.
Элементы искусственного интеллекта находят хорошее применение для создания интеллектуальных программных средств ЭВМ, АСУ, систем автоматизации проектирования (САПР), информационно-поисковых систем (ИПС), систем управления базами данных (СУБД), экспертных систем (ЭС), систем поддержки принятия решений (СППР), т.е. позволяют повысить уровень интеллектуальности создаваемых информационных систем.
8.1. Понятия «Базы знаний» и "искусственный интеллект"
В 1950 г., т.е. в период разработки первых ЭВМ, английский математик Тьюринг опубликовал статью, касающуюся того, что впоследствии стали называть "искусственным интеллектом". Он рассмотрел вопрос: "могут ли машины мыслить?". Ответ, предложенный Тьюрингом в статье, был: "да, я думаю, что это будет возможно через пятьдесят лет". Сегодня проблема Тьюринга далека от решения и мало кто думает, что в 2000-м году она будет реализована. Основная идея Тьюринга заключалась в довольно простом определении искусственного интеллекта как множества научных дисциплин, которые с помощью ЭВМ имитируют интеллектуальные способности человека.
Концепция "интеллект" является сложной, относительной, и выражение "искусственный интеллект" не сильно его уточняет. Поэтому достаточно трудно определить понятие "искусственней интеллект".
Искусственный интеллект (ИИ) - какой любопытный смысл выражается двумя словами, которые в отдельности по существу противоположны. Обычно интеллект связывают с поведением человека. Понятие "искусственный" относится к сущностям, которые не являются естественными, и в этом смысле оно противоположно понятию "интеллект". Рассматривать искусственным главный элемент человеческой природы - "интеллект" является парадоксальным. Согласитесь, что выражение "искусственный интеллект" плохо подобрано, несмотря на то, что целью систем ИИ является поведение, подобное поведению человека. Слово "интеллект" происходит от латинского слова "intelligеntiа", которое в свою очередь образовалось от глагола "intеlligеnе", означающего способность понимать, определять смысл. А "искусственный" - производится человеком, а не природой.
Развиваясь в течение четырех десятилетий дисциплина ИИ начала применяться в промышленности (открытие и разработка месторождений, аэронавтика, автомобилестроение, электроника, информатика, химия и др.), в экономике и управлении (бизнес, финансы, страхование,...), в непромышленной сфере (транспорт, служба здоровья, связь,...), в сельском хозяйстве.
Средства ИИ позволяют разрабатывать модели и программы обработки задач, для которых неизвестны прямые и надежные методы решения. ИИ можно определить не только как науку, но и как техническое мастерство. Специалисты по ИИ ставят такие научные проблемы как: принятие эффективных решений в области бизнеса, диагностика заболеваний или неисправностей в оборудовании, синтез программ на основе спецификаций, понимание текста на естественном языке, анализ изображения и идентификация его содержимого, управление роботом и др.
Данные и знания
Приведем определения основных понятий изучаемой дисциплины и рассмотрим различие между понятиями "данные" и "знания".
Данные - представленная в формализованном виде конкретная информация об объектах предметной области, их свойствах и взаимосвязях, отражающая события и ситуации в этой области.
Знание - это обобщенная и формализованная информация о свойствах и законах предметной области, с помощью которой реализуются процессы решения задач, преобразования данных и самих знаний, т.е. которая используется в процессе логического вывода.
Знание здесь играет важную роль по двум причинам. Во-первых, внешняя часть подобных систем ориентирована на определенный тип знаний. К примеру, правил и логики. Во-вторых, способ, с помощью которого данная система представляет знания, влияет на развитие, эффективность, скорость и защиту системы.
Знание, как и Любовь – одно из тех слов, смысл которого знает каждый. Однако тяжело дать ему определение. Как и у Любви, у знания много значений. Такие слова как данные, факты и информация часто используются в качестве синонимов знанию.
Наука о знании называется эпистемологией. Она занимается природой, структурой и происхождением знания. Помимо философской разновидности знания существуют два особых вида знания: теоретическое и эмпирическое. Теоретическое знание является универсальной истиной, которую нельзя отрицать без наличия опровержения. Примерами теоретического знания могут быть логические заключения, математические законы и знания, которыми владеют взрослые.
Обратным понятием по отношению к теоретическому знанию является знание, полученное из расчетов или измерений, т.е. эмпирическое знание. Истинность или ошибочность эмпирических знаний можно подтвердить опытным путем
Далее знание можно разделить на: алгоритмическое, описательное и неосознанное. Первых два вида аналогичны алгоритмическим и описательным теориям. Алгоритмические знания часто обозначают умение что-то делать. Примером алгоритмических знаний является умение вскипятить воду в чайнике. Описательные сведения объясняют ошибочность или достоверность того или иного утверждения. Они связаны с информацией, выраженной в виде высказываний типа “Не помещайте пальцы в чайник с кипящей водой”.
Неосознанное знание обычно называют бессознательным, потому что его нельзя выразить словами. Примером может быть умение двигать рукой, ходить или ездить на велосипеде.
Логический вывод - это генерирование новых утверждений (суждений) на основе исходных фактов, аксиом и правил вывода.
Процесс решения задачи с использованием данных и знаний можно представить простейшей моделью на рис. 8.1.
Рис. 8.1. Модель вывода гипотезы на основе данных и знаний
В данном случае знания - это либо информация, на которую ссылаются, либо программа, обрабатывающая данные, т.е. реализующая вывод с целью получения некоторой гипотезы.
Знания с точки зрения решения задач в некоторой предметной области удобно разделить на две большие категории - факты и эвристики. Под фактами обычно понимают общеизвестные в данной предметной области истины, обстоятельства. Эвристики - это эмпирические алгоритмы, основанные на неформальных соображениях, которые ограничивают разнообразие и обеспечивают целенаправленность поведения решающей системы, не гарантируя, однако, получение наилучшего решения. Такие знания основываются на опыте специалиста (эксперта) в данной предметной области, например, о родственных связях. Объектами этой предметной области являются понятия: мать, отец, дочь, мужчина, женщина и т.п. Пусть известны следующие факты:
Виктор является отцом Тани;
Владимир является отцом Виктора.
На языке Пролог эти факты описываются следующим образом:
отец (виктор, таня).
отец (владимир, виктор).
Здесь "отец" является именем отношения или предикатом (логической функцией), а “виктор", "таня" и "владимир" - константами.
Пусть Х, Y, Z - переменные.
Используя переменные Х и Z, можно в общем случае записать отношение:
Х является отцом Z
на языке Пролог:
отец (Х, Z).
Используя предикат ”отец” и переменные X, Y, Z , сформулируем новое отношение “дед’, а именно:
Если X является отцом Z и
Z является отцом Y
То X является дедом Y.
Такая форма записей отношения “Если...То” называется продукционным правилом, продукцией или просто правилом.
На языке Пролог отношение “дед” записывается следующим образом: дед (X,Y): -отец (X,Z), отец (Z,Y). Символ “:-” интерпретируется как “Если”. Запятая, разделяющая предикаты ”отец”, означает логическую операцию И. Аргументами предикатов здесь являются переменными X, Y, Z, и константами “виктор”, “таня”, “владимир”. Аргументы и костанты предикатов записываются в скобках и разделяются запятыми. На примере отношения “дед” мы видим, что сформулирована общая закономерность определения понятия “дед” через понятие “отец”. Имя “владимир”, взятое вне зависимости от отношения, ни о чем не свидетельствует. Возможно, это имя человека (сына, отца, деда и т.п.) или наименование города. Точно так же числовые или другие данные, например, в файле данных. Данное, взятое вместе с отношением, определяет некоторый смысл и, таким образом, представляет собой знание.
Рассмотрим особенности знания, в которых заключается их отличие от данных.
Интерпретация. Данные, хранимые в памяти ЭВМ, могут интерпретироваться только соответствующей программой. Данные без программы не несут никакой информации, в то время как знания имеют интерпретацию, поскольку они содержат одновременно и данные, и соответствующие им имена, описания.
Структурированность. Данные должны обладать гибкой структурой. Для них должен выполняться “принцип матрешки”, то есть рекурсивная вложимость одних информационных единиц в другие. Каждая информационная единица может быть включена в состав любой другой, и из каждой такой единицы можно выделить составляющие ее элементы. Например, в программах требуется описывать свойства как множества в целом, так и отдельных его элементов. Между определенными единицами знаний можно установить такие отношения, как “элемент-множество”, “тип-подтип”, “cитуация-подситуация”, отражающие характер их взаимосвязи. Это позволяет в одном экземпляре хранить информацию, одинаковую для элементов множества. При необходимости одни единицы знаний могут наследовать свойства других единиц.
Связность. В БД между информационными единицами устанавливаются связи различного типа, характеризующие отношения между объектами, явлениями и т.п. Совместимость отдельных событий или фактов в некоторой ситуации определяется этими связями, а так же такими отношениями, как одновременность, расположение в одной области пространства и т.д. Связи позволяют строить процедуры анализа знаний на совместимость, противоречивость и другие, которые трудно реализовать при хранении традиционных массивов данных.
Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношения, характеризующие ситуационную близость этих единиц. Это отношение релевантности информационных единиц, которое позволяет находить знания, близкие имеющимся.
Различают две формы представления знаний: декларативная и процедурная. Декларативные знания не содержат в явной форме процедур, которые нужно выполнить. Такие знания представляются множеством утверждений, не зависящих от того, где они применяются. Их использование предполагает полное описание пространства состояний моделируемого объекта, которое носит синтаксический характер. Вывод и поиск решений базируется на процедурах поиска в пространстве состояний. Эти процедуры учитывают специфику конкретной предметной области, то есть ее семантику. Следовательно, при декларативной форме представления семантические и синтаксические знания в определенной мере отделены друг от друга, что придает названной форме большую по сравнению с другими формами универсальность и общность.
Процедурные знания содержат в явном виде описание некоторых процедур. Состояние объекта представляется в виде набора процедур, с помощью которых обрабатывается определенный участок базы знаний (БЗ). В этом случае не требуется хранения описаний всех возможных состояний объекта, так как их можно сгенерировать с помощью процедур, используя некоторое начальное множество состояний. При процедурном представлении семантика объекта включается в описания элементов базы знаний, что позволяет применять более эффективные процедуры поиска решений с тем, чтобы исключить необходимость обработки полных описаний. Процедурные знания обеспечивают более быстрый поиск решения по сравнению с декларативными, однако, уступают им в возможности накопления и актуализации знаний.
5. Активность. Разделение информационных единиц на данные и программы (команды) привело к тому, что данные пассивны, а команды активны. Для ИИС знания инициируют действия. Появление в информационной базе новых фактов, установление связей может стать источником активности системы.
Перечисленные пять особенностей определяют ту грань, за которой данные превращаются в знания, а БД - в базы знаний.
Совокупность средств, обеспечивающих работу со знаниями, образует систему управления базой знаний (СУБЗ).
Основным направлением, реализующим идеи ИИ, является разработка систем, основанных на знаниях. Центральный объект изучения ИИ – знания, могут быть представлены в виде некоторой совокупности сведений (фактов, правил), процессов, явлений, а так же способов решения задач данной предметной области. Специалисты, занимающиеся извлечением знаний, их формализацией и структурированием для обработки в компьютерных системах, называются инженерами по знаниям или инженерами знаний.
А область деятельности по накоплению знаний, их фильтрации, хранению, обработке и получению новых знаний называется управлением знаниями или инженерией знаний.
Системы, основанные на знаниях, могут иметь следующие функции:
- извлечение знаний из различных источников;
- формирование качественных знаний;
- интеграция знаний;
- приобретение знаний от профессионалов и экспертов;
- оценка и формализация знаний;
- представление знаний;
- управление базами знаний;
- манипулирование знаниями;
- пополнение знаний;
- классификация знаний;
- обобщение знаний;
- вывод на знаниях;
- правдоподобный вывод;
- рассуждения с помощью знаний;
- объяснения на знаниях.
Для формализации знаний, представленных в текстовом, графическом виде, в виде документов и т.д., требуется наличие или, возможно, разработка методов, позволяющих преобразовать исходные знания к виду, пригодному для обработки в ИИС. Знания, полученные из различных источников, требуется интегрировать в связную и непротиворечивую систем, называемую базой знаний.
Полученные от экспертов знания нужно оценить с точки зрения уже имеющихся в базе знаний, согласовать с последующими и выделить несовместные или противоречивые знания.
Для представления знаний используются логические модели, продукционные правила, таблицы принятия решений, фреймы и др., которые детально будут рассмотрены в последующих главах. Для ввода, хранения, обработки, вывода знаний разработаны системы управления базами знаний, которые включают языки описания и манипуляции знаниями, а также программные процедуры.
Особое место в манипулировании знаниями занимает вывод на знаниях, заключающийся в получении новых знаний на основе уже имеющихся в системе. Это одно из наиболее проблематичных с точки зрения направлений в ИИС. Большой интерес в выводе знаний представляет манипулирование человеческих рассуждений: аргументация на основе имеющихся знаний, рассуждения по аналогии и многое другое, чем люди пользуются в своей практике.
Объяснение полученных результатов на основе знаний существенно отличает ИИС и других компьютерных систем.
Управление знаниями
Управление знаниями (Knowledge Management – KM) - это установленный в корпорации формальный порядок работы с информационными ресурсами для облегчения доступа к знаниям и повторного их использования с помощью современных информационных технологий. При этом знания классифицируются и распределяются по категориям в соответствии с предопределенной, но развивающейся онтологией структурированных и полуструктурированных баз данных и баз знаний. Основная цель КМ – сделать знания доступными и повторно используемыми на уровне всей корпорации.
Ресурсы знаний различаются в зависимости от отраслей индустрии и приложений, но как правило, они включают руководства, письма, новости, информацию о заказчике, сведения о конкурентах и данные, накопившиеся в процессе работы. Для применения систем КМ используются разнообразные технологии: электронная почта; базы и хранилища данных; системы групповой поддержки; браузеры и системы поиска; корпоративные сети и Internet; экспертные системы и системы баз знаний; интеллектуальные системы.
В системах искусственного интеллекта базы знаний генерируются для экспертов и систем, основанных на знаниях, в которых компьютеры используют правила вывода для получения ответов на вопросы пользователя. Хотя приобретение знаний для получения компьютерных заключений все еще остается важным вопросом, большинство современных разработок КМ обеспечивают знания в удобной для восприятия форме, или поставляют ПО для обработки этих знаний.
Современные КМ системы спроектированы на всю организацию, то есть имеется доступ к информации и знаниям как руководству организации, так и рядовым сотрудникам. Кроме того, технология КМ идеально подходит для рабочих групп, не связанных с управлением, например, групп поддержки клиентов, когда запросы пользователей и ответы на них кодируются и вводятся в базу данных, доступную всем сотрудникам компании, обслуживающим клиентов. Предприятия сейчас переходят к использованию хранилищ данных, чтобы все сотрудники могли использовать накопленную информацию, вносить при необходимости изменения, архивировать данные и т. д.
Хранилища данных отличаются от традиционных БД тем, что они проектируются для поддержки процессов принятия решений, а не просто для эффективного сбора и обработки данных. Как правило, хранилище содержит многолетние версии обычной БД, физически размещаемые в той же самой базе. Данные в хранилище не обновляются на основании отдельных запросов пользователей. Вместо этого вся база данных периодически обновляется целиком. Когда все данные содержаться в едином хранилище, изучение связей между отдельными элементами данных может быть более плодотворным, а результатом анализа становятся новые знания. Альтернативный подход, называемый «добыча знаний», применяется для поиска в данных дополнительных, скрытых в них знаний.
Хранилища знаний ориентированы в большей степени на хранение качественных данных в отличие от хранилища данных, которые содержат в основном количественные данные. КМ-системы генерируют знания из широкого диапазона баз данных, хранилищ данных, рабочих процессов, статей новостей, внешних баз, Web-страниц (как внешних, так и внутренних), и конечно, люди, представляют свою информацию. Таким образом, хранилища знаний подобны виртуальным складам, где знания распределены по большому количеству серверов.
Например, база данных может содержать руководства и правила конструкторского и технологического проектирования, спецификации изделий и нормативы выполнения работ и т.д. Другим распространенным корпоративным приложением является база знаний кадровых ресурсов, содержащих данные о квалификации и профессиональных навыках сотрудников. Эта информация может включать данные об образовании, перечень специальностей, сведения об опыте работы и т. д. Базы данных и базы знаний. Знания можно извлекать из рабочих процессов, обзоров новостей и широкого диапазона других источников. Знания, приходящие из рабочих процессов, базируются на рабочих материалах, предложениях и т. п. Кроме того, базы знаний могут быть спроектированы в расчете на ведение хронологии деятельности предприятия, касающейся, например, работы с клиентами.
Базы данных для обучения. Обучающие БД могут использоваться для поддержки операций или генерации информации о бизнесе в целом. Например, обучающая база данных может содержать три типа уроков: информационные, уроки успеха и проблемы . Информационный урок предназначен для приема служащим информации о некотором событии, например, опасности. В уроках успеха приводится позитивный опыт разрешения трудной ситуации. В уроках по проблемам показаны примеры типичных ситуаций возникновения ошибок и возможные пути их устранения. Аналогично, компания Ford Motor имеет специальные файлы TGRW (things gone right/wrong – события, которые могут происходить правильно или неправильно), в которых собирается информация о действиях, облегчающих выполнение задачи, и о разного рода препятствиях.
Базы знаний оптимальных решений. Обычно подобные знания накапливаются в процессе использования различных тестов при поиске эффективных путей решения задач. После того как организация получила знания о наилучшем решении, доступ к ним может быть открыт для сотрудников корпорации. Консалтинговые фирмы были одними из первых, кто начал разработку БД оптимальных решений для помощи своим клиентам. Разведка знаний представляет собой новое и быстро развивающееся направление, использующее методы искусственного интеллекта, математики и статистики для «выуживания» знаний из хранилищ данных. Термин «разведка знаний» определяется как «нетривиальное извлечение точной, ранее неизвестной и потенциально полезной информации из данных». Этот метод включает инструментарий и различные подходы к анализу как текста, так и цифровых данных.
Представление знаний. Системы КМ представляют знания как в форме, удобной для нашего восприятия, так и в машиночитаемом виде. В первом случае доступ к знаниям можно получить, используя браузеры и системы интеллектуального поиска. Но иногда знания, доступные в машиночитаемой форме, могут быть спроектированы как базы знаний экспертных систем для поддержки принятия решений. В других случаях, когда информация имеет декларативный характер (факт или утверждения), текст или правила могут использоваться для представления информации и знаний. Например, руководства, информационные бюллетени или другие подобные типы знаний обычно выглядят как документы, списки или правила (хотя могут быть добавлены связи между знаниями для упрощения поиска и понимания). Организационные правила основаны на общепринятых нормах поведения и записываются обычно в форме продукционного правила «Если А То В». Например, «если у Вас рождается ребенок, то Вам полагается три года отпуска». Подобные адаптированные правила могут в дальнейшем использоваться в базах знаний, основанных на правилах.
С другой стороны, если информация фильтруется, то она может быть представлена как набор декларативных утверждений, не зависящих от конкретной ситуации. Хотя фильтрация позволяет быть уверенным, что знания полны и непротиворечивы, но могут быть несколько упрощены по сравнению с исходной информацией.
Используя машиночитаемые знания, экспертные системы «подводят» пользователя к рекомендованным решениям. Экспертные системы могут быть интегрированной частью КМ-систем. Хотя последние иногда содержат элементы искусственного интеллекта, эти элементы используются только для поиска знаний, представленных в форме, удобной для восприятия человеком.
Онтология – это точное описание концептуализации. В КМ-системах корпорации онтологические спецификации могут ссылаться на таксономию задач, которые определяют знание для системы (Таксономия – теория классификации и систематизации сложноорганизованных областей деятельности, обычно имеющих иерархическое строение). Онтология определяет словарь, совместно используемый в КМ-системе для упрощения коммуникации, общения, запоминания и представления. Разработка и поддержка онтологии в масштабе целого предприятия требует постоянных усилий для ее развития. Онтология, в частности, необходима для того, чтобы пользователь мог работать с базами данных оптимальных решений, относящихся к широкому кругу проблем предприятия и легко распознавать, какое решение может ему подойти в конкретной ситуации. Так как предприятия часто вовлечены в различные виды деятельности, то для одной КМ-системы может потребоваться несколько онтологий. По мере необходимости практически все предприятия, использующие КМ-системы, разрабатывают свою собственную онтологию. Другие описательные атрибуты знаний. Кроме онтологии, для использования знаний огромное значение имеют дополнительные описательные атрибуты. Примерами описательных атрибутов могут служить: «сотрудник», «организация» и «статус информации». Теоретически все базы знаний хранят информацию о контакте или сотруднике, включая имя, дату контакта, роль контактирующего лица в генерации знаний (например, руководитель проекта) и т. д. Многие базы знаний хранят организационную информацию, например, сведения о том, в каком подразделении разработан проект или собраны знания. Статус информации также представляет собой типичный описательный атрибут и может включать, например, признак состояния данного элемента: планируемый, применяемый сегодня или уже использовавшийся. Это может быть также запись о том, предназначена информация только для внутреннего использования или же может быть распространена за пределами организации.
Фильтрация знаний. Качество и актуальность знаний зависит от многих факторов. Например, от того, кто поставляет знания в систему. Поскольку качество знаний изменяется от источника к источнику, системы часто пересортировывают знания, чтобы они были полными и достоверными. Например, некоторая компания может накапливать удачный опыт реконструкции и санации предприятий в базе данных, комбинируя человеческие и компьютеризированные знания. Далее аналитик просматривает каждую позицию базы данных и определяет, насколько она полезна и уместна, и принимает решение о том, включать ли предлагаемые уроки в обучающую базу данных.
Фильтрация не всегда выполняется сотрудниками компании. Чаще всего используется фильтрация сообщений электронной почты по приоритетам и категориям. Кроме того, применяются различные средства, позволяющие отслеживать качество баз данных. Оценка обычно зависит от потребностей конкретных сотрудников, рабочих групп или интересов всего предприятия. Однако в таких системах степень важности поступающей информации существенно зависит от пользователя: одни могут охарактеризовать информацию как «очень важная», «важная» и т.д. Другие решают, каким уровнем должна быть помечена информация перед тем, как она будет им доставлена. Допустим, очень занятому менеджеру, вероятно, было бы удобно, чтобы информация называлась «очень важной». Таким образом, информация, отмеченная ранее, как «важная», не попадет в число «очень важной», и менеджер не всегда увидит необходимую или очень важную информацию. В свою очередь менеджер может установить свой уровень важности, чтобы быть уверенным, что вся действительно «очень важная» информация будет получена. В конечном итоге, это приводит не только к обесцениванию важности, но и к наводнению информацией, а именно с ним такая система и должна бороться.
Поиск знаний. Базы знаний могут быть очень большими. Базы знаний обычно содержат огромное количество информации, поэтому поиск нужной информации становится экстремально критической функцией. Большинство современных методов поиска включают инструментальные средства, средства интеллектуального поиска и визуальные модели.
Инструментальные средства.Широкий диапазон хорошо известных инструментальных средств поиска (AltaVista, Excite, Infoseek, Lycos, WebCrawler, Yahoo) был использован для информационной навигации в Internet. Все они могут быть адаптированы для внутрикорпоративных нужд при работе с КМ-системами. Кроме того, многие компании разработали альтернативные методы условного поиска. Например, Andersen Consulting имеет «центральное хранилище интерфейсов (карты знаний), которые связываются с знаниями». Пользователи могут выбирать карту для навигации при поиске знаний, хранящихся в многочисленных БД, причем не зная точно, в какой именно базе данных следует искать.
Средства интеллектуального поиска.С помощью средств интеллектуального поиска мы находим нужные данные в информационном наполнении Internet или корпоративных сетей. Например, InfoFinder изучает интересы пользователей по наборам классифицированных ими сообщений или документов. Кроме того, InfoFinder использует эвристические методы для сбора дополнительных, более точных сведений. Базируясь на синтаксисе сообщений, InfoFinder пытается определить ключевые фразы, которые помогают понять задачу пользователя. Например, один из эвристических подходов предполагает извлечение любых слов, целиком состоящих из заглавных букв, таких как ISDN, так как это, вероятно, соответствует представлению аббревиатур или технических имен. Другой эвристический метод заключается в том, чтобы не обращать при этом внимания на слова, если они используются для усиления, например «NOT». Еще один способ – включение перечислений, нумерованных списков, секций заголовков и описаний диаграмм. Все это позволяет InfoFinder находить документы, предугадывая запросы пользователя.
Визуальные модели.Среди новых тенденций в области проектирования систем поиска для эффективных КМ можно выделить метод визуальных моделей. Два инструментария – Perspecta и InXight – представляют различные методы визуализации знаний.
Perspecta (http://www.perspecta.com) создает интеллектуальный контекст, используя метаинформацию, выделенную из исходных документов, включая структурированную информацию в БД и целевых документах, или неструктурированные данные в офисных документах и Web-страницах. Для неструктурированных документов Perspecta имеет специальное средство Document Analysis Engine, которое выполняет лингвистический анализ и автоматически помечает документы. Сервер интеллектуального контекста анализирует помеченную информацию, идентифицирует взаимосвязи между документами и строит многоразмерное информационное пространство, используя специальный язык пометок (Information Space Markup Language). Пользователь «летит» сквозь информационное пространство, манипулируя мышью. Для экономии ресурсов данные выгружаются клиенту с помощью информационного потокового протокола (Information Streaming Transport Protocol), который является расширением HTTP.
Компания InXight Software (http://www.inxight. com), отпочковавшаяся от Xerox PARC, выпустила собственное средство визуализации VizControl, предлагающее несколько форматов визуализации. Каждый из них развивает метод «фокус контекст», когда интересующие пользователя данные выводятся на передний план и в тоже время сохраняется структура даже очень больших наборов данных. Одно из таких инструментальных средств, гиперболический браузер (или «рыбий глаз»), использует гиперболическую геометрию для расширения информационного пространства при работе с иерархическими структурами, которые расширяются экспоненциально с увеличением глубины. Таким образом, гиперболический браузер может показать 1000 узлов в окне размером 600х600 пикселов, в центре которого высвечивается текст довольно большого объема (для сравнения, условный 2D-браузер может показать на экране лишь около 100 узлов). Пользователь перемещается по информационному пространству, щелкая мышью на узле или передвигая указатель мыши по гиперболической плоскости.
Когда предприятия начали внедрять КМ-системы для обеспечения собственной конкурентоспособности, стало очевидно, что применять такие системы выгодно и такие системы позволяют упрощать повторное использование имеющихся знаний и создавать новые знания, и этим самым заметно усовершенствовать процессы принятия решений.
Технологии Data Mining
Дословно слова Data Mining означают «добыча, раскопки, извлечение данных». Data mining - это процесс выделения (селекции), исследования и моделирования из больших объемов данных неявной и неструктурированной информации и представления ее в виде пригодном для принятия эффективных решений в бизнесе. Это нахождение скрытых структур и закономерностей среди групп записей, которые преобразуют данные в информацию. Технология DM придумана для решения вопросов бизнеса, которые программирование на SQL и средства Query/OLAP не могут решить адекватно.
Рассмотрим пример из области финансов: “Люди каких категорий наиболее предрасположены отозваться на ваше бизнес-предложение?" или "Кто из ваших потенциальных потребителей наиболее вероятно уйдет к конкурентам?". В распределении: "Через какой канал и кому следует предлагать эти продукты, сервисы?". В розничной торговле: "Какие продукты следует продвигать со скидками, чтобы это привело к росту продаж наиболее прибыльных линеек?" или "Кто наши наиболее выгодные покупатели, какова потенциальная прибыль от них и каков риск их истощения?". В случае, если с помощью DM удается ответить на поставленный вопрос, фирма сможет увеличить прибыль, повысить уровень обслуживания клиентов (предвидеть запросы, лучше удовлетворять спрос) и добиться конкурентного преимущества на рынке. Отметим, что есть области бизнеса, где большие фирмы не могут конкурировать с маленькими. Последние знают предпочтения каждого клиента и имеют свои индивидуальные подходы к нему. Первый шаг к повышению качества обслуживания — запись всего, что делает клиент. Это обеспечивают OLTP-системы. Следующий шаг — данные из различных систем должны быть собраны для анализа — тут на помощь приходят технологии хранилищ данных. Наконец, важнейший этап - данные должны быть проанализированы и на основании этого анализа предприняты действия, полезные для бизнеса. Это область технологий DM. Отметим, что процесс обнаружения знаний не полностью автоматический - он требует участия пользователя. Пользователь должен знать, что он ищет, основываясь на собственных гипотезах, и на основе выявленных структур и закономерностей он должен суметь принять эффективное решение. В итоге часто вместо подтверждения имеющейся гипотезы процесс поиска вызывает появление новых гипотез.
Технология DM - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Некоторые методы перечислены ниже:
Используется, например, при оценке рисков при выдаче кредита;
· оценивание;
· нечеткая логика;
· статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;
· генетические алгоритмы;
· фрактальные преобразования;
· нейронные сети - данные пропускаются через слои узлов, "обученных" распознаванию тех или иных структур.
К технологии DM можно добавить еще визуализацию данных - построение графического образа из данных, использование цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к DM примыкают деревья решений и параллельные базы данных. Технология DM тесно связана (интегрирована) с хранилищами данных (Data Warehousing) и можно сказать, что они обеспечивают работу Data Mining.
Типы закономерностей
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:
· ассоциация
· последовательность
· классификация
· кластеризация
· прогнозирование
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить математическую модель и найти шаблоны, адекватно отражающие эту динамику, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.