Тема 12. БАЗОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Технологии обработки текстов являются одними из наиболее распространенных технологий обработки информации. Текст – любая последовательность символов, к которым относятся буквы, пробел, знаки препинания, цифры, знаки арифметических операций и т.п. Текст можно создать карандашом, пером, авторучкой, на пишущей машинке, наконец, на компьютере.

К аппаратным средствам компьютера для ввода текстового документа относится клавиатура, световой карандаш со специальным планшетом, сканер.

К программным средствам, предназначенным для работы с текстами, относятся:

· электронные блокноты;

· текстовые редакторы;

· текстовые процессоры;

· редакционно-издательские системы;

· программы-переводчики;

· лингвистические корректоры;

· системы, осуществляющие интеллектуальный поиск и интеллектуальную обработку текстов, размещенных в сетях.

Текстовый редактор – программное средство, предназначенное для создания (ввода, набора), редактирования и оформления текстов. Примеры: «Лексикон», «Слово и дело», «Edit», «Ched», «Note Pad», «Write».

Текстовый процессор отличается от текстового редактора более широкими функциональными возможностями:

· настраиваемое пользователем меню;

· использование контекстного меню;

· сопровождение текста таблицами и проведение в них простейших расчетов;

· вставка графических объектов (рисунков, диаграмм, заголовков и пр.) или создание рисунков с помощью встроенных инструментов;

· вставка формул, графиков, диаграмм;

· оформление текста списками, буквицами;

· использование инструмента автокоррекции текста и его автореферирования;

· создание и использование макросов;

· фоновая проверка орфографии, синтаксиса и др.

Примеры: Word (Microsoft Office), Word Pro (Lotus Smart Suite), Word perfect (Perfect Office), Accent, Word Pad.

Редакционно-издательские системы должны обеспечить все функции текстового процессора, а также:

· воспринимать тексты, созданные в различных текстовых редакторах;

· воспринимать отсканированные или нарисованные в графических редакторах иллюстрации, созданные на ПК разных платформ, и корректировать их цвета;

· иметь большой набор шрифтов и возможность их графического преобразования;

· иметь возможность для различного «обтекания» рисунка текстом;

· обеспечивать автоматическое оптимальное размещение текста на странице, автоматическую нумерацию страниц;

· обеспечивать адаптацию к различным печатающим устройствам и т.п.

Программы-переводчики или компьютерные словари содержат переводы на разные языки сотен тысяч слов и словосочетаний. Их возможности, предоставляемые пользователю, заключаются в следующем:

· выбор языка и направления перевода;

· предоставление не только общеупотребительных, но и специализированных слов;

· обеспечение быстрого поиска словарных статей;

· предоставление мультимедийных услуг – прослушивание слов в исполнении дикторов.

Рассматривая технологию создания текста, необходимо знать определение таких понятий как шрифт, графема, сериф, кегль, а также пагинация, выключка, кернинг, интерлиньяж.

Графема – единица письменного знака, выступающая в различных вариантах в зависимости от стиля письма, места в предложении и т.д.

Шрифт – выполненные в едином стиле графемы букв, используемых для письма.

Сериф – завиток (росчерк, засечка), образующий окончание линии, которой изображена буква или знак (литера).

Кегль – размер шрифта, определяемый литерой.

Выключка – выравнивание длины печатных строк по заданному размеру путем увеличения промежутков между словами.

Пагинация (от английского page – страница) – разбивка на страницы.

Кернинг – уменьшение расстояния между буквами для более удобного и комфортного восприятия текста глазом.

Интерлиньяж – регулировка промежутка между строками.

Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы – программы-конверторы.

Рассмотрим некоторые наиболее распространенные форматы текстовых файлов.

Только текст (Text Only) (TXT). Наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца. Применяют этот формат для хранения документов, которые должны быть прочитаны в приложениях, работающих в различных операционных системах.

Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все форматирование. Преобразует управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями, в результате информационный объем файла существенно возрастает.

Документ Word (DOC). Оригинальный формат используемой в настоящее время версии Word. Полностью сохраняет форматирование. Использует 16-битную кодировку символов, что требует использование шрифтов Unicode.

Документ Word 2.0, Word 6.0/95 (DOC). Оригинальные форматы предыдущих версий редактора Word. При преобразовании из формата Word 97/2000/2003 форматирование сохраняется не полностью.

Works 4.0 для Windows (WPS). Оригинальный формат интегрированной системы Works 4.0. При преобразовании из формата Word форматирование сохраняется не полностью.

HTML-документ (HTM, HTML). Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.

Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.

Форматирование документа

Любой документ состоит из страниц, поэтому в начале работы необходимо задать значения параметров страницы: формат, ориентацию, размер полей и др.

При создании реферата, курсовой работы и др. целесообразно выбрать формат страницы А4, который соответствует размеру стандартного листа бумаги для принтера.

Существуют две возможные ориентации страницы – книжная и альбомная. Для обычных текстов чаще всего используется книжная ориентация, а, например, для таблиц с большим количеством столбцов – альбомная.

На странице можно установить требуемые размеры полей (верхнего, нижнего, правого и левого), которые определяют расстояние от краев страницы до границы текста. Для вывода на каждой странице документа одинакового текста (например, имени автора, названия документа и др.) удобно использовать верхний или нижний колонтитул. Расстояние от края страницы до колонтитула можно изменять.

Страницы документа требуется нумеровать, причем номера можно размещать по-разному (вверху или внизу страницы, по центру, справа или слева).

Абзац является одним из основных объектов текстового документа. В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши <Enter> и отображается символом ¶, если включен режим отображения непечатаемых символов.

Абзац может состоять из любого набора символов, рисунков и объектов других приложений. Форматирование абзацев позволяет подготовить правильно и красиво оформленный документ.

Выравнивание абзацев отражает расположение текста относительно границ полей страницы. Чаще всего используют четыре способа выравнивания абзацев: по левому краю, по центру, по правому краю, по ширине.

Чаще всего абзац начинается отступом первой строки. Отступ может быть различных типов: положительный отступ (когда первая строка начинается правее всех остальных строк абзаца), отрицательный отступ – выступ (когда первая строка выходит влево относительно остальных строк абзаца), нулевой отступ.

Расстояние между строками документа можно изменять, задавая различные значения междустрочных интервалов (одинарный, двойной и т. д.). Для визуального отделения абзацев друг от друга можно устанавливать увеличенные интервалы между абзацами.

Символы являются теми основными объектами, из которых состоит документ. Символы – это буквы, цифры, пробелы, знаки пунктуации, специальные символы. Символы можно форматировать, т. е. изменять их внешний вид.

Среди основных свойств символов можно выделить следующие: шрифт, размер, начертание и цвет.

Шрифт – это полный набор символов определенного начертания, включая строчные и прописные буквы, знаки препинания, специальные символы, цифры и знаки арифметических действий. Для каждого исторического периода и разных стран характерен шрифт определенного рисунка. Каждый шрифт имеет свое название. Например, наибольшей популярностью пользуются шрифты Times New Roman, Arial.

Единицей измерения размера шрифта является пункт (1 пт = 0,376 мм). Размеры шрифтов можно изменять в больших пределах (обычно от 1 до 1638 пунктов).

Кроме нормального (обычного) начертания символов обычно применяют полужирное, курсивное, полужирное курсивное.

Можно установить дополнительные параметры форматирования символов: подчеркивание символов различными типами линий, изменение вида символов (верхний индекс, нижний индекс, зачеркнутый), изменение расстояния между символами (разреженный, уплотненный) и др.

Если планируется многоцветная печать документа, то для различных групп символов можно задать различные цвета, выбранные из предлагаемой текстовым редактором палитры.

Для размещения в документе различных перечней применяются списки. Существуют следующие виды списков:

· нумерованные списки, когда элементы списка сопровождаются арабскими или римскими цифрами и буквами,

· маркированные списки, когда элементы списка отмечаются с помощью специальных символов-маркеров.

Возможно создание и вложенных списков, причем вкладываемый список может по своему типу отличаться от основного.

Иногда в текстовых документах используются таблицы. Таблица – это объект, состоящий из строк и столбцов, на пересечении которых образуются ячейки. С помощью таблиц можно форматировать документы, например, расположить абзацы в несколько рядов, совместить рисунок с текстовой подписью и так далее.

При размещении в таблице чисел можно производить над ними вычисления по формулам: суммирование, умножение, поиск максимального и минимального чисел и др.

 

К аппаратным средствам ввода числовой информации относится клавиатура, вывода – принтер, обработки – процессор и сопроцессор.

К программным средствам ввода и обработки числовой информации относятся:

· электронные калькуляторы;

· электронные таблицы (SuperCalc, Excel, Lotus и др.);

· пакеты прикладных программ для статистической обработки данных (Systat, Statistica, Stadia и др.);

· специализированные математические пакеты прикладных программ (Eureka, Mathcad, Matlab, Maple и др.).

Электронные калькуляторы являются специализированными программными приложениями, предназначенными для произведения вычислений. Электронные калькуляторы по своим функциональным возможностям соответствуют аппаратным микрокалькуляторам.

Электронный Калькулятор является стандартным приложением операционной системы Windows. С его помощью можно:

· производить арифметические действия над целыми и дробными числами;

· переводить числа из одной системы счисления в другую;

· вычислять значения математических функций;

· вычислять значения статистических функций;

· вычислять значения финансовых функций и др.

Электронные калькуляторы позволяют проводить сложные многоступенчатые вычисления с записью промежуточных результатов в ячейки памяти калькулятора. По мере необходимости такие результаты можно извлекать из памяти и использовать в дальнейших вычислениях.

Электронные калькуляторы позволяют обмениваться числовыми данными с другими приложениями с использованием буфера обмена операционной системы.

Электронная таблица – работающее в диалоговом режиме приложение, хранящееся и обрабатывающее данные в прямоугольных таблицах. Наибольшее распространение получили электронные таблицы Microsoft Excel и StarCalc.

Электронная таблица состоит из столбцов и строк. Заголовки столбцов обозначаются буквами и сочетаниями букв (А, В, АВ и т. п.), заголовки строк – числами (1, 2, 3 и т. д.). Ячейка – место пересечения столбца и строки.

Каждая ячейка таблицы имеет свой собственный адрес. Адрес ячейки составляется из заголовка столбца и заголовка строки, например А1, В3, Е6. Ячейка, с которой производятся какие-то действия, выделяется рамкой и называется активной.

Электронные таблицы, с которыми работает пользователь в приложении, называются рабочими листами. Можно вводить и изменять данные одновременно на нескольких рабочих листах, а также выполнять расчеты на основе данных из нескольких листов. Документы электронных таблиц могут включать несколько рабочих листов и называются рабочими книгами.

В работе с электронными таблицами можно выделить три основных типа данных: число, текст и формула. В зависимости от решаемой задачи возникает необходимость применять различные форматы представления данных. В каждом конкретном случае важно выбрать наиболее подходящий формат.

Для представления чисел по умолчанию электронные таблицы используют числовой формат, который отображает два десятичных знака после запятой (например, 187,40).

Экспоненциальный формат применяется, если число, содержащее большее количество разрядов, не умещается в ячейке (например, число 15 000 000 000 в экспоненциальном формате будет записано в следующем виде: 1,50Е+10).

По умолчанию числа выравниваются в ячейке по правому краю. Это объясняется тем, что при размещении чисел друг под другом (в столбце таблицы) удобно иметь выравнивание по разрядам (единицы под единицами, десятки под десятками и т. д.).

Текстом в электронных таблицах является последовательность символов, состоящая из букв, цифр и пробелов, например, запись «80 Мбайт» является текстовой. По умолчанию текст выравнивается в ячейке по левому краю. Это объясняется традиционным способом письма (слева направо).

Формула должна начинаться со знака равенства и может включать в себя числа, имена ячеек, функции и знаки математических операций. В формулу не может входить текст.

При вводе формулы в ячейке отображается не сама формула, а результат вычислений по этой формуле. При изменении исходных значений, входящих в формулу, результат пересчитывается немедленно.

Для представления данных можно использовать также специализированные форматы: денежный формат (4000,00р.) удобен для бухгалтерских расчетов, форматы дата и время позволяют хранить значения временных данных (12.02.2006; 14:35:10).

В формулах используются ссылки на адреса ячеек. Существуют два основных типа ссылок: относительные и абсолютные. Различия между ними проявляются при копировании формулы из активной ячейки в другую ячейку.

Относительные ссылки в формулах используются для указания адреса ячейки, вычисляемого относительно ячейки, в которой находится формула. При перемещении или копировании формулы из активной ячейки относительные ссылки автоматически обновляются в зависимости от нового положения формулы. Относительные ссылки имеют вид: А1, В4.

Абсолютные ссылки в формулах используются для указания фиксированного адреса ячейки. При перемещении или копировании формулы абсолютные ссылки не изменяются. В абсолютных ссылках перед неизменяемыми значениями адреса ячейки ставится знак доллара (например, $A$2).

Если символ доллара стоит перед буквой (например, $A1), то координата столбца абсолютная, а строки – относительная. Если символ доллара стоит перед числом (например, A$1), то, наоборот, координата столбца относительная, а строки – абсолютная. Такие ссылки называются смешанными.

Формулы могут состоять не только из арифметических операторов и адресов ячеек. Часто в вычислениях приходится использовать формулы, содержащие функции. Электронные таблицы имеют несколько сотен встроенных функций, которые подразделяются на категории: Математические, Статистические, Финансовые, Дата и время и др. При вводе в формулу функций удобно использовать Мастер функций.

Электронные таблицы позволяют осуществлять сортировку данных, то есть производить их упорядочение. Данные в электронных таблицах можно сортировать по возрастанию или убыванию. При сортировке по возрастанию данные выстраиваются в следующем порядке:

· числа сортируются от наименьшего отрицательного до наибольшего положительного числа;

· текст сортируется в следующем порядке: числа, знаки, латинский алфавит, русский язык;

· пустые ячейки всегда помещаются в конец списка.

В электронных таблицах можно осуществлять поиск данных (строк) в соответствии с заданными условиями. Такие условия называются фильтром. В результате поиска будут найдены строки, удовлетворяющие заданному фильтру.

Условия задаются с помощью операций сравнения. Для числовых данных это операции равно (знак =), меньше (знак <), больше (знак >), меньше или равно (знак <=), больше или равно (знак >=). Для задания условия необходимо выбрать операцию сравнения и задать число.

Для текстовых данных возможны операции сравнения равно, начинается с (сравниваются первые символы), заканчивается на (сравниваются последние символы), содержит (сравниваются символы в любой части текста). Для задания условия необходимо выбрать операцию сравнения и задать последовательность символов.

Электронные таблицы позволяют визуализировать данные, размещенные на рабочем столе, в виде диаграммы или графика. Диаграммы и графики наглядно отображают зависимости между данными, что облегчает восприятие и помогает при анализе и сравнении данных.

Диаграммы могут быть различных типов и соответственно представлять данные в различной форме. Для каждого набора важно правильно подобрать тип создаваемой диаграммы. Для наглядного сравнения различных величин используются линейчатые диаграммы. Для отображения величин частей от целого применяется круговая диаграмма. Для отображения изменения величин в зависимости от времени и построения графиков функций используются диаграммы типа «график».

При рассмотрении пакетов статистической обработки следует указать сферы применения, средства графического представления данных и результатов. Пакеты статистической обработки предназначены для проведения статистической обработки больших массивов данных.

Математические пакеты позволяют решить практически любую математическую задачу и представить результаты расчетов в табличном или графическом виде. Многие математические пакеты имеют развитые средства построения трехмерных поверхностей, задаваемых с помощью функций.

Целостность баз данных.

Под целостностью понимают «правильность» данных, содержащихся в БД, по отношению к предметной области. Целостность данных подразделяется на следующие категории.

· Сущностная целостность

· Доменная целостность

· Ссылочная целостность

· Пользовательская целостность

Сущностная целостность

Целостность на уровне сущности означает обеспечение уникальности экземпляра сущности, т.е., строки в конкретной таблице. Она обеспечивается указанием ограничений целостности PRIMARY KEY или UNIQUE в SQL, или указанием первичного ключа таблицы.

Доменная целостность

Доменная целостность - достоверность значений атрибута, или в конкретном столбце. Она поддерживается в соответствии с указанием типаданных, формата, правил и ограничений CHECK, а также ограничения на диапазон возможных значений, задаваемого с помощью FOREIGN KEY (внешний ключ), DEFAULT (значение по умолчанию), определений NOT NULL (недопустимость значения NULL).

Ссылочная целостность

Ссылочная целостность гарантирует согласованность значений ключевых атрибутов в связанных таблицах. Этот вид целостности проверяет наличие ссылок на несуществующие значения, а также обеспечивает согласованное изменение ссылок во всей базе данных при изменении значения ключа. Обычно ссылочная целостность основана на связи первичных и внешних ключей и обеспечивается с помощью ограничений FOREIGN KEY и CHECK.

При обеспечении ссылочной целостности СУБД не допускает следующих действий пользователей.

· Добавления или изменения строк в связанной таблице, если в первичной таблице нет соответствующей строки.

· Изменения значений в первичной таблице, которое приводит к появлению потерянных строк в связанной таблице.

· Удаления строк из первичной таблицы, если имеются соответствующие ей строки в связанных таблицах.

Пример таблиц с нарушением ссылочной целостности:

Пользовательская целостность подразумевает определение бизнес-правил. Поддержку пользовательской целостности обеспечивают с помощью ограничений на уровне атрибутов (столбцов) и таблицы при описании структуры таблицы, в операторе CREATE TABLE, хранимых процедурах и триггерах.

Триггером является хранимая процедура, выполняемая автоматически при возникновении события на сервере. Различают триггеры DML (срабатывающие при попытке изменения данных) и триггеры DDL (срабатывающие при попытке изменить описание данных).

DML-триггеры выполняются по событиям, вызванным попыткой пользователя изменить данные с помощью языка обработки данных. Событиями DML являются процедуры INSERT, UPDATE или DELETE, применяемые к таблице или представлению (View). Триггеры DML используют внутренние логические таблицы, именуемые deleted и inserted. По своей структуре они подобны таблице, на которой определен триггер, то есть таблице, к которой применяется действие пользователя. В таблицах deleted и inserted содержатся старые или новые значения строк, которые могут быть изменены действиями пользователя.

DML-триггеры могут обращаться к другим таблицам. DML-триггеры удобно использовать в следующих случаях:

· для каскадных изменений в связанных таблицах базы данных;

· для предотвращения случайных или неправильных операций INSERT, UPDATE и DELETE.

При редактировании связанных таблиц в зависимости от заданных ограничений поддержки целостности СУБД может:

· выполнить каскадное (CASCADE) удаление/обновление строк в связанных таблицах;

· не выполнять действий (NO ACTION) по редактированию связанных таблиц.

Це́лостность ба́зы да́нных (database integrity) — соответствие имеющейся в базе данных информации её внутренней логике, структуре и всем явно заданным правилам. Каждое правило, налагающее некоторое ограничение на возможное состояние базы данных, называется ограничением целостности (integrity constraint). Примеры правил: вес детали должен быть положительным; количество знаков в телефонном номере не должно превышать 25; возраст родителей не может быть меньше возраста их биологического ребёнка и т. д.

Понятие согласованности, или целостности данных является ключевым понятием баз данных.

Кузнецов С. Д.[1]:30

Очевидно, что ограничения должны быть формально объявлены для СУБД, после чего СУБД должна предписывать их выполнение. Объявление ограничений сводится просто к использованию соответствующих средств языка базы данных, а соблюдение ограничений осуществляется с помощью контроля со стороны СУБД над операциями обновления, которые могут нарушить эти ограничения, и запрещения тех операций, которые их действительно нарушают. При первоначальном объявлении ограничения система должна проверить, удовлетворяет ли ему в настоящий момент база данных. Если это условие не соблюдается, ограничение должно быть отвергнуто; в противном случае оно принимается (то есть записывается в каталог системы) и начиная с этого момента соблюдается[2]:338.

Задача аналитика и проектировщика базы данных — возможно более полно выявить все имеющиеся ограничения целостности и задать их в базе данных.

Механизмы обеспечения целостности являются одной из составляющих концепции модели данных[3][4].

Содержание

[скрыть]

· 1Классификация ограничений целостности

· 2Целостность и истинность данных в БД

· 3См. также

· 4Примечания

Классификация ограничений целостности[править | править вики-текст]

В теории реляционных баз данных принято выделять четыре типа ограничений целостности[2]:353:

· Ограничением базы данных называется ограничение на значения, которые разрешено принимать указанной базе данных.

· Ограничением переменной отношения называется ограничение на значения, которые разрешено принимать указанной переменной отношения.

· Ограничением атрибута называется ограничение на значения, которые разрешено принимать указанному атрибуту.

· Ограничение типа представляет собой не что иное, как определение множества значений, из которых состоит данный тип.

Примером распространённого ограничения уровня переменной отношения является потенциальный ключ; примером распространённого ограничения уровня базы данных является внешний ключ.

Целостность и истинность данных в БД[править | править вики-текст]

Целостность БД не гарантирует достоверности (истинности) содержащейся в ней информации, но обеспечивает по крайней мере правдоподобность этой информации, отвергая заведомо невероятные, невозможные значения. Таким образом, не следует путать целостность (непротиворечивость) БД с истинностью БД. Истинность и непротиворечивость — не одно и то же[2]:351.

Достоверность (или истинность) есть соответствие фактов, хранящихся в базе данных, реальному миру. Очевидно, что для определения достоверности БД требуется обладание полными знаниями как о содержимом БД, так и о реальном мире. Для определения целостности БД требуется лишь обладание знаниями о содержимом БД и о заданных для неё правилах. Поэтому СУБД не может гарантировать наличие в базе данных только истинных высказываний; все, что она может сделать, — это гарантировать отсутствие каких-либо данных, вызывающих нарушение ограничений целостности (то есть гарантировать то, что она не содержит каких-либо данных, не совместимых с этими ограничениями)[2]:351.

Из того, что данные являются правильными, следует, что они непротиворечивы (но не обратное), а из того, что данные не являются непротиворечивыми, следует, что они неправильны (но не обратное). Здесь под словом «правильные» подразумевается, что в базе данных содержатся правильные данные тогда и только тогда, когда она полностью отражает истинное состояние дел в реальном мире[2]:351.

Контроль истинности данных может быть возложен только на человека, да и то в ограниченных масштабах, поскольку в ряде случаев люди тоже не обладают полнотой знаний о реальном мире.

Эволюции вычислительных систем (ВС). Сущность «фон-неймановской» концепции вычислительной машины

Наши рекомендации