Классификация моделей данных. Имени Александра Григорьевича и Николая Григорьевича Столетовых
ВЛАДИМИРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Имени Александра Григорьевича и Николая Григорьевича Столетовых
КАФЕДРА БИЗНЕС-ИНФОРМАТИКИ И ЭКОНОМИКИ
РЕФЕРАТ
по дисциплине «Базы данных»
на тему: «Дескрипторные модели данных»
Выполнил:
студент 3-го курса
группы БИк-214
Лобудеев П.Д.
Принял:
Виноградов Д.В.
Владимир 2016
Содержание
Введение_________________________________________________________3
1.Классификация моделей данных____________________________________4
Дескрипторные модели____________________________________________8
2.1 Понятие об ИПС _______________________________________________8
2.2 Линейная модель работы ИПС______________________________________10
2.3. Понятие о многоуровневом поиске______________________________12
2.4. Основные характеристики ИПС_________________________________13
Заключение______________________________________________________14
Список используемой литературы___________________________________15
Введение
База данных – это совокупность хранимых в информационной системе данных различного характера, организованных по определенным правилам, регламентирующим процессы создания, ведения и доступа к данным.
Совокупность лингвистических и программных средств, предназначенных для создания, ведения и совместного использования баз данных многими пользователями, называется системой управления базами данных.
Под системой управления понимается комплекс программ, который позволяет не только хранить большие массивы данных в определенном формате, но и обрабатывать их, представляя в удобном для пользователей виде. Access — это система управления базами данных (СУБД).
Различают четыре типа моделей СУБД: иерархическую, сетевую, реляционную и объектно-ориентированную. Наиболее распространенной для ПЭВМ является модель СУБД реляционного типа.
Классификация моделей данных
Одними из основополагающих в концепции баз данных являются обобщенные категории «данные» и «модель данных».
Понятие «данные» в концепции баз данных — это набор конкретных значений, параметров, характеризующих объект, условие, ситуацию или любые другие факторы.
Центральным понятием в области баз данных является понятие модели. Не существует однозначного определения этого термина, у разных авторов эта абстракция определяется с некоторыми различиями, но тем не менее можно выделить нечто общее в этих определениях.
Модель данных— это некоторая абстракция, которая, будучи применима к конкретным данным, позволяет пользователям и разработчикам трактовать их уже как информацию, то есть сведения, содержащие не только данные, но и взаимосвязь между ними.
На рис. 1 представлена классификация моделей данных.
Рисунок 1 - Классификация моделей баз данных
Модель выражающая информацию о предметной области в виде, независимом от используемой СУБД называются инфологическими, или семантическими, и отражают в естественной и удобной для разработчиков и других пользователей форме информационно-логический уровень абстрагирования, связанный с фиксацией и описанием объектов предметной области, их свойств и их взаимосвязей.
Инфологические модели данных используются на ранних стадиях проектирования для описания структур данных в процессе разработки приложения, а дата-логические модели уже поддерживаются конкретной СУБД.
Документальные модели данных соответствуют представлению о слабоструктурированной информации, ориентированной в основном на свободные форматы документов, текстов на естественном языке.
Тезаурусные модели основаны на принципе организации словарей, содержат определенные языковые конструкции и принципы их взаимодействия в заданной грамматике. Эти модели эффективно используются в системах-переводчиках, особенно многоязыковых переводчиках. Принцип хранения информации в этих системах и подчиняется тезаурусным моделям.
Дескрипторные модели — самые простые из документальных моделей, они широко использовались на ранних стадиях использования документальных баз данных. В этих моделях каждому документу соответствовал дескриптор — описатель. Этот дескриптор имел жесткую структуру и описывал документ в соответствии с теми характеристиками, которые требуются для работы с документами в разрабатываемой документальной БД. Например, для БД, содержащей описание патентов, дескриптор содержал название области, к которой относился патент, номер патента, дату выдачи патента и еще ряд ключевых параметров, которые заполнялись для каждого патента. Обработка информации в таких базах данных велась исключительно по дескрипторам, то есть по тем параметрам, которые характеризовали патент, а не по самому тексту патента.
В настоящий момент в качестве физических моделей используются различные методы размещения данных, основанные на файловых структурах: это организация файлов прямого и последовательного доступа, индексных файлов и инвертированных файлов, файлов, использующих различные методы кэширования, взаимосвязанных файлов. Кроме того, современные СУБД широко используют страничную организацию данных. Физические модели данных, основанные на страничной организации, являются наиболее перспективными.
В зависимости от вида организации данных в группе теоретико-графовых моделях данных различают следующие основные модели СУБД:
- иерархическую;
- сетевую;
- реляционную;
- объектно-ориентированную.
Дескрипторные модели
Простейшие модели естественных языков – дексрипторные модели. В этих моделях отражаются только понятия и имена, которые в терминах модели называются дескрипторами.
Модель действительно очень проста: фраза на естественном языке моделируется простым перечислением дескрипторов, которые иногда называются ключевыми словами. Дескрипторная модель часто применяется в информационно поисковых системах (ИПС).
2.1 Понятие об ИПС
Название этих систем говорит само за себя – это системы, предназначенные для поиска информации в документальных базах данных, в том числе в глобальных сетях, например, в Интернете. Практически всем широко известны следующие примеры ИПС: rambler, yandex, yahoo, google, hotbot и т.д.
Поиск в таких системах производится по некоторым ключевым словам, которые являются дескрипторами.
Структурная схема дескрипторной ИПС приведена на рис. 2
Рисунок 2 - Структурная схема дескрипторной ИПС
Здесь, ПО – поисковые образцы документов, ПП – поисковое предписание; и то и другое есть некоторый набор дескрипторов. Тезаурус содержит набор всевозможных дескрипторов, т.е. представляет собой массивный словарь. Хранилище содержит сам набор документов или ссылок на документы (ссылки используются при поиске в сетях), среди которых осуществляется поиск. При внесении документа в хранилище, вводится набор дескрипторов (ключевых слов), описывающих его. Набор ключевых слов помещается в тезаурус, а документ или его описание – в хранилище, связанное с массивом поисковых образцов (в нем для каждого документа хранятся ссылки на дескрипторы). При обработке запроса вводятся ключевые слова, на основе которых с использованием тезауруса формируется поисковое предписание. Далее происходит сверка поискового предписания с поисковыми образами, устанавливается соответствие и выдается документ или его описание, позволяющее найти документ. Методы сравнения поисковых образов и поисковых предписаний описаны в следующих пунктах данного параграфа.
Дескрипторной модели имеют два основных недостатка
A) Возможность ложной координации дескрипторов из-за неоднозначности понятий естественного языка. Например, дескриптор «ПРОЛОГ» может означать пролог к книге или одноименный язык программирования, дескриптор «ключ» – ключ от двери, родник, уникальный атрибут в реляционной таблице и т.д.
B) Неоднозначность из-за о.тсутствия определения ролей. Например, имеем фразу: «мать любит дочь». Возможно два толкования (грамматического разбора):
Иногда вводят в архитектуры систем возможности определения ролей, но в этом случае модель поиска уже не может называться дескрипторной, а механизмы поиска значительно усложняются.
2.2 Линейная модель работы ИПС
Считаем, что в системе имеется t дескрипторов (иначе говоря объем тезауруса равен t). Тогда любой документ (точнее его поисковый образ) можно идентифицировать с помощью битового (двоичного) вектора (x1,…..,xt), где xj=1, если j-й дескриптор присутствует в описании документа, в противном случае xi=0.
Если в системе d документов, то вся информация может быть представлена с помощью матрицы Cdt:
i-я строка матрицы является описанием i-го документа.
Запрос (точнее его поисковое предписание) также можно представить в виде битового вектора
- количество дескрипторов, которые одновременно присутствуют и в запросе и в i-м документе. Эта величина называется критерием релевантности i-го документа относительно запроса .
=(r1,….,rd) - вектор релевантностей для запроса .
Результатом поиска обычно признаются документы, релевантность которых выше заданного порога r*, который должен зависеть от числа дескрипторов в запросе и в документе, что не очень удобно.
Выражение для можно записать в матричной форме: =C .
Пример. Пусть в системе имеется 6 дескрипторов и 2 документа имеющих описания (1,1,1,0,0,0) и (1,1,1,1,1,1). Подается запрос =(1,1,1,0,0,0). Тогда r1=r2=3, хотя очевидно, что 1-й документ лучше соответствует запросу.
Другой критерий:
Для нашего примера в этом случае r1=1, r2=1/2.
Как видим, второй критерий более совершенен, что объясняется учетом не только совпадений дескрипторов в описаниях, но и несовпадений.
К сожалению, в силу человеческого фактора, однотипные документы часто характеризуют разными ключевыми словами, и это необходимо учесть в поисковой модели. Целесообразно учитывать степень похожести дескрипторов и документов.
Вычислим матрицы A, D:
Att=СTtdCdt, Ddd= CdtCTtd.
Элемент ajm матрицы A показывает количество одновременных присутствий j-го и m-го дескрипторов в описаниях документов, а элемент dik матрицы D– количество общих дескрипторов в i-м и k-м документах. Таким образом, матрица A показывает степень похожести дескрипторов, а матрица D – степень похожести документов. С помощью определения порогов a* и d* эти матрицы приводятся к бинарному виду:
Пусть:
A | = | D | = | |||||||
a ٭ = 3 | d ٭ = 3 |
aij ≤ a*=> aij' = 0
aij > a* => aij = 1
dij ≤ d*=> dij' = 0
dij > d* => dij = 1
A | = | D | = | |||||||
Имеет смысл использовать критерий:
R=D’(C(A’Q))
Фактически в этом случае все похожие дескрипторы автоматически добавляются к запросу, по расширенному запросу производится поиск, а затем к множеству полученных документов добавляются похожие.
2.3. Понятие о многоуровневом поиске
Основной причиной отсутствия возможностей применения линейной модели в крупных ИПС является очень большое количество понятий в естественных языках, вследствие чего матрицы разрастаются до таких размеров, что мощности ЭВМ не хватает, чтобы выполнять их обработку. В связи с этим на практике в универсальных ИПС применяются различные варианты многоуровневого поиска.
Для двухуровневого случая выбираются группы похожих документов с помощью неприведенной матрицы D и создаются описание для групп документов. А внутри каждой группы уже описывается сам документ. Поиск осуществляется в 2 этапа: сначала ищется нужная группа документов, а затем внутри этой группы сам документ. Очевидно, что уровней иерархии может быть сколько угодно, различными могут быть и принципы разделения на группы.
2.4. Основные характеристики ИПС
Основными характеристиками ИПС являются полнота и точность поиска.
Полнота поиска выражается отношением
где С – число подходящих документов, R – число таковых документов, выданное системой.
Точностью поиска называется отношение
T =
где L – число документов, выданных системой, а K – число таковых документов, действительно соответствующих запросу.
На практике полнота, как правило, обратно пропорциональна точности.
Заключение
Дескрипторные модели данных - самые простые из документальных моделей, они широко использовались на ранних стадиях использования документальных баз данных.
Основная функция СУБД, построенной на основании той или иной модели – организация обмена информацией между пользователями и базами данных с соответствующими процедурами контроля полномочий и процедур проверки.
Современные БД основываются на использовании моделей данных, позволяющих описывать объекты предметных областей и взаимосвязи между ними. Модели данных используются, как для концептуального, так и для логического и физического представления данных.
Основное различие между этими моделями данных состоит в способах описания взаимодействий между объектами и атрибутами.
Список используемой литературы
1. Базы данных: учеб. Пособие для студ. высш. учеб. Заведений / А.В. Кузин, С.В. Левонисова. – 2-е изд. стер. – М.: Издательский центр «Академия», 2008.
2. Марков А.С., Лисовский К.Ю. Базы данных. Введение в теорию и методологию: Учебник. –М.: Финансы и статистика, 2006.
3. Теория и практика построения баз данных. 8-е изд. / Д. Крёнке. –СПб: Питер, 2003.