Принципы организации баз данных 1 страница
Принципы классификации баз данных. Классификация баз данных. Реляционные базы данных как основные в настоящее время. Некоторые теоретические вопросы реляционной теории.
Информатизация общества, информационное общество. Интернет
Основные понятия, относящиеся к информатизации и информационному обществу. Информатизация экономики.
Информационная безопасность
Понятие информационной безопасности. Основные составляющие. Важность проблемы. Законодательный, административный и процедурный уровни. Программно-технические меры.
1 Лекция: Введение. История, предмет, структура информатики
Рассматривается история развития информатики и излагается предмет информатики (в узком и широком понимании), основные три ее направления (теоретическая, прикладная и техническая), а также междисциплинарная, мировоззренческая, воспитательная, культурная, эстетическая и методологическая роль информатики в обществе и познании.
Хотя информатика и считается достаточно молодой наукой (по отношению ко многим другим отраслям знания), но предпосылки к ее зарождению – достаточно древние.
При рассмотрении вопроса об истории информатики будем исходить из первых признаков и событий информационного обмена, осознавая, что об информатике как о науке тогда речь не шла.
Пример. Первый предмет для ведения счета обнаружен в Чехии (волчья кость с зарубками) и относится к 30000 г. до н.э.
Наиболее важной и ранней предпосылкой к информационному обмену стала речь, а позже – самые первые знаковые системы (живопись, музыка, графика, танец, обряды и др.).
Затем появилась письменность: вначале она была рисуночной, иероглифической, с использованием носителей различного типа (камень, глина, дерево и т.д.).
Пример. В Древнем Египте около 3000 г. до н.э. появилось иероглифическое письмо на камне, а затем и иератическое (не иероглифическое) письмо на папирусе. Бронзовый век дал нам идеограммы – изображения повторяющихся систем понятий, которые в конце IV века до н.э. превратились в рисуночное иероглифическое письмо.
Развиваются различные системы, счета и механизации (это, как известно, – предпосылка автоматизации) счета.
Пример. В Древнем Вавилоне около 8000 г. до н.э. использовали различные эталоны меры (каменные шары, конусы, цилиндры и т.д.). Там же около 1800 г. до н.э. начали использовать шестидесятеричную систему счисления. Древние римляне положили в основу счисления иероглифическое обозначение пальцев рук (все символы этой системы счисления можно изобразить с помощью пальцев рук). Счет на основе пальцев использовался достаточно долго и дал нам десятичную систему счисления, применяемую во всем мире.
От рисунков на камне (пиктограмм) осуществляется переход к рисункам на дощечках, глиняных пластинах (клинописи), от клинописи – к слоговому (вавилонскому) письму, от вавилонского письма – к греческому, от греческого и латинского – к основным западным письменным системам, к возникновению пунктуационного письма.
На основе латинской и греческой письменности разрабатываются терминологические системы для различных областей знания – математики, физики, медицины, химии и т.д. Развивается математический (алгебраический) язык – основа формализации различных знаний. Распространение математической символики и языка приводит к развитию всего естествознания, так как появился адекватный и удобный аппарат для описания и исследования различных явлений.
Пример. Появляются символы дифференцирования, интегрирования, которые потом берутся "на вооружение" физикой, химией и другими науками.
Совершенствуются различные системы визуализации информации – карты, чертежи, пирамиды, дворцы, акведуки, механизмы и др.
Пример. Механизмы штурма крепостей были достаточно сложны, древние водопроводные системы работают и до сих пор.
С появлением папируса повышается информационная емкость, актуализируется новое свойство информации – сжимаемость.
С появлением бумаги появляется эффективный носитель информации – книга, а изобретение печатного станка (Гуттенберга) приводит к тиражированию информации (новое свойство информационного обмена). Появляется достаточно адекватный (на тот период) инструмент массовой информационной коммуникации. Развиваются элементы виртуального мышления (например, в картинах известных художников).
Распространению информации способствует также появление и развитие библиотек, почты, университетов – центров накопления информации, знаний, культуры в обществе.
Пример. Появились централизованные хранилища информации, например, в столице Хеттского государства во дворце хранилось около 20 тыс. глиняных клинописных табличек.
Происходит массовое тиражирование информации, рост профессиональных знаний и развитие информационных технологий. Появляются первые признаки параллельной (по пространству и по времени) передачи и использования информации, знаний.
Пример. Изменение информационных свойств накладывает отпечаток и на все производство, на производственные и коммуникационные отношения, например, происходит разделение (по пространству, по времени) труда, появляется необходимость в развитии торговли, мореходства, изучении различных языков.
Дальнейший прогресс и возникновение фотографии, телеграфа, телефона, радио, кинематографа, телевидения, компьютера, компьютерной сети, сотовой связи стимулируют развитие массовых и эффективных информационных систем и технологий.
В отраслях науки формируются языковые системы: язык химических формул, язык физических законов, язык генетических связей и др.
С появлением компьютера стало возможным хранение, автоматизация и использование профессиональных знаний программ: баз данных, баз знаний, экспертных систем и т.д.
Пример. Персональный компьютер впервые становится средством и стимулятором автоформализации знаний и перехода от "кастового" использования ЭВМ (исключительно "кастой программистов") к общему, "пользовательскому" использованию.
Информатика от "бумажной" стадии своего развития переходит к "безбумажной", электронной стадии развития и использования.
В конце двадцатого века возник так называемый информационный кризис, "информационный взрыв", который проявился в резком росте объема научно-технических публикаций. Возникли большие сложности восприятия, переработки информации, выделения нужной информации из общего потока и др. В этих условиях появилась необходимость в едином и доступном мировом информационном пространстве, в развитии методов и технологии информатики, в развитии информатики как методологии актуализации информации, в формировании базовых технологий и систем и пересмотре роли информатики в обществе, науке, технологии.
Мир, общество начали рассматриваться с информационных позиций. Это время лавинообразного увеличения объема информации в обществе, ускорения их применения на практике, повышения требований к актуальности, достоверности, устойчивости информации. XXI век можно считать веком "информационного сообщества", единого и доступного мирового информационного пространства (поля), которое будет постоянно улучшать как производительные силы и производственные отношения, так и человеческую личность, общество.
Появление информатики как науки базируется на индустрии сбора, обработки, передачи, использования информации, на продуктах развития математики, физики, управления, техники, лингвистики, военной науки и других наук.
Информатика – фундаментальная научная и образовательная область, которая не может ограничиться рамками инженерных, пользовательских трактовок, рамками процедурного программирования, имея мощный формальный аппарат для глубокого изучения явлений и систем, их практической интерпретации, усиления междисциплинарных связей.
Информатика уже прошла этап "интуитивного (в своих понятиях, определениях, целях) развития", достаточно "теоретизировалась" и превратилась в полноценную фундаментальную естественнонаучную дисциплину, как, скажем, математика или физика.
Пример. В эпоху введения информатики в число образовательных дисциплин использовался больше программистский и пользовательский подход. Информатика, как правило, отождествлялась с процедурным программированием и решением задач на ЭВМ. Преподавалась информатика в школах и вузах – соответственно.
Если информатика рассматривается с узких позиций ее применения, применимости, то она выступает как техническая, технологическая среда общества, как средство обеспечения, например, коммуникационных потребностей общества.
Если информатика рассматривается с позиции передачи знаний, то она выступает как общекультурная среда и средство познания природы и общества.
Оба подхода должны быть взаимосвязаны.
Абсолютизация первого подхода приводит к различным технократическим перекосам, утопиям.
Абсолютизация второго подхода может привести к излишнему формализму и идеализации.
Дадим теперь рабочее (в данном курсе) определение информатики. Это определение не является ни полным, ни точным, ни формальным (дать такое определение – невозможно), но для вводного курса, как кажется автору, – вполне приемлемое.
Информатика – это междисциплинарная, методологическая наука об информационных процессах, о моделях, об алгоритмах и алгоритмизации, о программах и программировании, об исполнителях алгоритмов и различных исполняющих системах об их использовании в обществе, в природе, в познании.
Термин "информатика" (l’informatique) был введен французскими учеными и означает науку обработки информации (первоначально это была информация научно-технического, библиотечного характера) с помощью различных автоматических средств.
Во многих странах больше используется термин "computer science" (компьютерная наука, наука о компьютерах, точнее, наука о преобразовании информации с помощью компьютеров).
Предмет информатики точно невозможно определить – он сложный, многосторонний, динамичный.
Можно отметить три основные ветви информатики: теоретическую, практическую и техническую. Отметим, что деление информатики как науки и человеческой деятельности на те или иные части зависит от целей, задач, ресурсов рассматриваемой проблемы и часто оно бывает условным.
Теоретическая информатика (brainware, "мозговое" обеспечение) изучает теоретические проблемы информационных сред.
Практическая, прикладная информатика (software, "гибкое", программное обеспечение) изучает практические проблемы информационных сред.
Техническая информатика (hardware, "тяжелое", аппаратное обеспечение) изучает технические проблемы информационных сред.
Пример. Задача построения математической модели прогноза кредитного риска банка – это задача теоретической информатики и экономики (естественно). Построение алгоритма прогноза по этой модели – задача теоретической информатики. Разработка компьютерной программы (комплекса программ) для прогноза риска – задача практической информатики.
Часто (особенно, в области практической информатики) говорят о предметной информатике, например, о медицинской информатике, физической информатике, компьютерной физике и т.д.
Пример. Определим предметы химической, медицинской, физической информатики. Химическая информатика изучает информационные процессы и системы в химических средах, проблемы управления в химических информационных структурах. Медицинская информатика изучает проблемы информационных процессов, а также управления в медицинских информационных системах. Физическая информатика (иногда интерпретируемая как компьютерная физика) изучает проблемы информационных процессов, управления, вопросы самоорганизации, хаоса и порядка в открытых физических системах.
В любую предметную информатику, помимо предметных аспектов самой области, входят социально-правовые, эколого-экономические, гуманитарно-образовательные и философские аспекты.
Предметная область науки "информатика" – информационные системы модели, языки их описания, технологии их актуализации.
Эти информационные процессы происходят как в живых организмах, так и в технических устройствах, в различных институтах общества, в индивидуальном и общественном сознании.
Информатика, как и математика, является наукой для описания и исследования проблем других наук. Она помогает прокладывать и усиливать междисциплинарные связи, исследовать проблемы различных наук с помощью своих идей, методов, технологий.
Фундаментальность информатике придает не только широкое и глубокое использование математики и других естественных наук, формальных методов и средств, но и общность и фундаментальность ее результатов, их универсальная методологическая направленность в производстве знаний общества.
Мировоззренческая роль информатики состоит, в частности, в том, что она помогает вникать (особенно, в информационную) суть явлений, происходящих в окружающем нас мире, например, скрытых, не лежащих на поверхности, выявлять, описывать и исследовать как внешние, так и внутренние связи системы.
Воспитательная роль информатики состоит, в частности, в выработке исследовательского, творческого, алгоритмического подхода к делу, настойчивости, терпения и трудолюбия, аккуратности, логичности и строгости суждений, развитии умений выделять главное и игнорировать второстепенное, не влияющее на суть проблемы, ставить и исследовать новые задачи, использовать информационные технологии при решении разнообразных задач и др.
Культурная роль информатики состоит в частности в том, что повышение информационной и компьютерной культуры естественным образом, в соответствии с функциями информатики содействует повышению и профессиональной, и общей культуры (мышления, поведения, выбора). Информатика – это своего рода особая культура и искусство информационно-логического представления знаний.
Эстетическая роль информатики эстетика (наука о прекрасном) состоит, в частности, в сведении разрозненных элементов и связей исследуемой проблемы в целостную композицию, обладающую эстетическими качествами (красота, обаяние, цвет, форма, пропорция, симметрия, гармония, единство частей целого, удовольствие и др.), в сведении целого к ее частям с целью повышения эстетических качеств восприятия (в том числе и виртуального) процесса, явления.
Благодаря информатике развиваются языки наук, происходит их взаимообогащение, следовательно, и сами науки развиваются.
Информатика также обогащается новыми идеями и приложениями вследствие этого процесса, развивает и индустриализирует процесс получения, хранения и использования знаний.
Информатика широко используется как в традиционных, естественнонаучных областях (физика, биология, экономика и др.), так и в гуманитарных – истории, лингвистике, психологии, социологии и др.
2 Лекция: Информация, ее представление и измерение
Рассматриваются основные понятия информатики – алфавит, слово, информация, сообщение, измерение сообщений и информации, виды и свойства информации, меры количества информации (по Хартли и Шеннону), их свойства и значение, вопросы связанные с информационными системами и управлением в системе.
Понятие информации является наиболее сложным для понимания и обычно во вводных курсах информатики не определяется, принимается как исходное базовое понятие, понимается интуитивно, наивно. Часто это понятие отождествляется неправильным образом с понятием "сообщение".
Понятие "информация" имеет различные трактовки в разных предметных областях. Например, информация может пониматься как:
- абстракция, абстрактная модель рассматриваемой системы (в математике);
- сигналы для управления, приспособления рассматриваемой системы (в кибернетике);
- мера хаоса в рассматриваемой системе (в термодинамике);
- вероятность выбора в рассматриваемой системе (в теории вероятностей);
- мера разнообразия в рассматриваемой системе (в биологии) и др.
Рассмотрим это фундаментальное понятие информатики на основе понятия "алфавит" ("алфавитный", формальный подход). Дадим формальное определение алфавита.
Алфавит – конечное множество различных знаков, символов, для которых определена операция конкатенации (приписывания, присоединения символа к символу или цепочке символов); с ее помощью по определенным правилам соединения символов и слов можно получать слова (цепочки знаков) и словосочетания (цепочки слов) в этом алфавите (над этим алфавитом).
Буквой или знаком называется любой элемент x алфавита X, где . Понятие знака неразрывно связано с тем, что им обозначается ("со смыслом"), они вместе могут рассматриваться как пара элементов (x, y), где x – сам знак, а y – обозначаемое этим знаком.
Пример. Примеры алфавитов: множество из десяти цифр, множество из знаков русского языка, точка и тире в азбуке Морзе и др. В алфавите цифр знак 5 связан с понятием "быть в количестве пяти элементов".
Конечная последовательность букв алфавита называется словом в алфавите (или над алфавитом).
Длиной |p| некоторого слова p над алфавитом Х называется число составляющих его букв.
Слово (обозначаемое символом Ø) имеющее нулевую длину, называется пустым словом: |Ø| = 0.
Множество различных слов над алфавитом X обозначим через S(X) и назовем словарным запасом (словарем) алфавита (над алфавитом) X.
В отличие от конечного алфавита, словарный запас может быть и бесконечным.
Слова над некоторым заданным алфавитом и определяют так называемые сообщения.
Пример. Слова над алфавитом кириллицы – "Информатика", "инто", "ииии", "и". Слова над алфавитом десятичных цифр и знаков арифметических операций – "1256", "23+78", "35–6+89". Слова над алфавитом азбуки Морзе – ".", ". . –", "– – –".
В алфавите должен быть определен порядок следования букв (порядок типа "предыдущий элемент – последующий элемент"), то есть любой алфавит имеет упорядоченный вид X = {x1, x2, …, xn} .
Таким образом, алфавит должен позволять решать задачу лексикографического (алфавитного) упорядочивания, или задачу расположения слов над этим алфавитом, в соответствии с порядком, определенным в алфавите (то есть по символам алфавита).
Информация – это некоторая упорядоченная последовательность сообщений, отражающих, передающих и увеличивающих наши знания.
Информация актуализируется с помощью различной формы сообщений – определенного вида сигналов, символов.
Информация по отношению к источнику или приемнику бывает трех типов: входная, выходная и внутренняя.
Информация по отношению к конечному результату бывает исходная, промежуточная и результирующая.
Информация по ее изменчивости бывает постоянная, переменная и смешанная.
Информация по стадии ее использования бывает первичная и вторичная.
Информация по ее полноте бывает избыточная, достаточная и недостаточная.
Информация по доступу к ней бывает открытая и закрытая.
Есть и другие типы классификации информации.
Пример. В философском аспекте информация делится на мировозренческую, эстетическую, религиозную, научную, бытовую, техническую, экономическую, технологическую.
Основные свойства информации:
- полнота;
- актуальность;
- адекватность;
- понятность;
- достоверность;
- массовость;
- устойчивость;
- ценность и др.
Информация – содержание сообщения, сообщение – форма информации.
Любые сообщения измеряются в байтах, килобайтах, мегабайтах, гигабайтах, терабайтах, петабайтах и эксабайтах, а кодируются, например, в компьютере, с помощью алфавита из нулей и единиц, записываются и реализуются в ЭВМ в битах.
Приведем основные соотношения между единицами измерения сообщений:
1 бит (binary digit – двоичное число) = 0 или 1,
1 байт 8 битов,
1 килобайт (1К) = 213 бит,
1 мегабайт (1М) = 223 бит,
1 гигабайт (1Г) = 233 бит,
1 терабайт (1Т) = 243 бит,
1 петабайт (1П) = 253 бит,
1 эксабайт (1Э) = 263 бит.
Пример. Найти неизвестные х и у, если верны соотношения:
128y (К) = 32x (бит);
2x (М) = 2y (байт).
Выравниваем единицы измерения информации:
27y (K) = 27y+13 (бит);
2x (M) = 2x+20 (байт).
Подставляя в уравнения и отбрасывая размерности информации, получаем:
27y+13 = 25x
2x+20=2y
Отсюда получаем систему двух алгебраических уравнений:
или, решая эту систему, окончательно получаем, x = –76,5, у = –56,5.
Для измерения информации используются различные подходы и методы, например, с использованием меры информации по Р. Хартли и К. Шеннону.
Количество информации – число, адекватно характеризующее разнообразие (структурированность, определенность, выбор состояний и т.д.) в оцениваемой системе. Количество информации часто оценивается в битах, причем такая оценка может выражаться и в долях битов (так речь идет не об измерении или кодировании сообщений).
Мера информации – критерий оценки количества информации. Обычно она задана некоторой неотрицательной функцией, определенной на множестве событий и являющейся аддитивной, то есть мера конечного объединения событий (множеств) равна сумме мер каждого события.
Рассмотрим различные меры информации.
Возьмем меру Р. Хартли. Пусть известны N состояний системы S (N опытов с различными, равновозможными, последовательными состояниями системы). Если каждое состояние системы закодировать двоичными кодами, то длину кода d необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N:
Логарифмируя это неравенство, можно записать:
Наименьшее решение этого неравенства или мера разнообразия множества состояний системы задается формулой Р. Хартли:
(бит).
Пример. Чтобы определить состояние системы из четырех возможных состояний, то есть получить некоторую информацию о системе, необходимо задать 2 вопроса. Первый вопрос, например: "Номер состояния больше 2?". Узнав ответ ("да", "нет"), мы увеличиваем суммарную информацию о системе на 1 бит (I = log22). Далее необходим еще один уточняющий вопрос, например, при ответе "да": "Состояние – номер 3?". Итак, количество информации равно 2 битам (I = log24). Если система имеет n различных состояний, то максимальное количество информации равно I = log2n.
Если во множестве X = {x1, x2, ..., xn} искать произвольный элемент, то для его нахождения (по Хартли) необходимо иметь не менее logan (единиц) информации.
Уменьшение Н говорит об уменьшении разнообразия состояний N системы.
Увеличение Н говорит об увеличении разнообразия состояний N системы.
Мера Хартли подходит лишь для идеальных, абстрактных систем, так как в реальных системах состояния системы не одинаково осуществимы (не равновероятны).
Для таких систем используют более подходящую меру К. Шеннона. Мера Шеннона оценивает информацию отвлеченно от ее смысла:
,
где n – число состояний системы; рi – вероятность (относительная частота) перехода системы в i-е состояние, а сумма всех pi должна равняться 1.
Если все состояния рассматриваемой системы равновозможны, равновероятны, то есть рi = 1/n , то из формулы Шеннона можно получить (как частный случай) формулу Хартли:
I = log2n .
Пример. Если положение точки в системе из 10 клеток известно, например если точка находится во второй клетке, то есть
рi = 0, i = 1, 3, 4, …, 10, р2 = 1 ,
то тогда получаем количество информации, равное нулю I = log21 = 0 .
Обозначим величину: . Тогда из формулы К. Шеннона следует, что количество информации I можно понимать как среднеарифметическое величин fi, то есть величину fi можно интерпретировать как информационное содержание символа алфавита с индексом i и величиной pi вероятности появления этого символа в любом сообщении (слове), передающем информацию.
В термодинамике известен так называемый коэффициент Больцмана K = 1.38 × 10–16 (эрг/град) и выражение (формула Больцмана) для энтропии или меры хаоса в термодинамической системе:
.
Сравнивая выражения для I и S, можно заключить, что величину I можно понимать как энтропию из-за нехватки информации в системе (о системе).
Основное функциональное соотношение между энтропией и информацией имеет вид:
.
Из этой формулы следуют важные выводы:
1. увеличение меры Шеннона свидетельствует об уменьшении энтропии (увеличении порядка) системы;
2. уменьшение меры Шеннона свидетельствует об увеличении энтропии (увеличении беспорядка) системы.
Положительная сторона формулы Шеннона – ее отвлеченность от смысла информации. Кроме того, в отличие от формулы Хартли, она учитывает различность состояний, что делает ее пригодной для практических вычислений. Основная отрицательная сторона формулы Шеннона – она не распознает различные состояния системы с одинаковой вероятностью.
Методы получения информации можно разбить на три большие группы.
1. Эмпирические методы или методы получения эмпирических данных.
2. Теоретические методы или методы построения различных теорий.
3. Эмпирико-теоретические методы (смешанные) или методы построения теорий на основе полученных эмпирических данных об объекте, процессе, явлении.
Охарактеризуем кратко эмпирические методы.
1. Наблюдение – сбор первичной информации об объекте, процессе, явлении.
2. Сравнение – обнаружение и соотнесение общего и различного.
3. Измерение – поиск с помощью измерительных приборов эмпирических фактов.
4. Эксперимент – преобразование, рассмотрение объекта, процесса, явления с целью выявления каких-то новых свойств.
Кроме классических форм их реализации, в последнее время используются опрос, интервью, тестирование и другие.
Охарактеризуем кратко эмпирико-теоретические методы.
1. Абстрагирование – выделение наиболее важных для исследования свойств, сторон исследуемого объекта, процесса, явления и игнорирование несущественных и второстепенных.
2. Анализ – разъединение целого на части с целью выявления их связей.
3. Декомпозиция – разъединение целого на части с сохранением их связей с окружением.
4. Синтез – соединение частей в целое с целью выявления их взаимосвязей.
5. Композиция — соединение частей целого с сохранением их взаимосвязей с окружением.
6. Индукция – получение знания о целом по знаниям о частях.
7. Дедукция – получение знания о частях по знаниям о целом.
8. Эвристики, использование эвристических процедур – получение знания о целом по знаниям о частях и по наблюдениям, опыту, интуиции, предвидению.
9. Моделирование (простое моделирование), использование приборов – получение знания о целом или о его частях с помощью модели или приборов.
10. Исторический метод – поиск знаний с использованием предыстории, реально существовавшей или же мыслимой.
11. Логический метод – поиск знаний путем воспроизведения частей, связей или элементов в мышлении.
12. Макетирование – получение информации по макету, представлению частей в упрощенном, но целостном виде.
13. Актуализация – получение информации с помощью перевода целого или его частей (а следовательно, и целого) из статического состояния в динамическое состояние.