Технологии и средства обработки текстовой информации
Технологии обработки текстов являются одними из наиболее распространенных технологий обработки информации. Текст – любая последовательность символов, к которым относятся буквы, пробел, знаки препинания, цифры, знаки арифметических операций и т.п. Текст можно создать карандашом, пером, авторучкой, на пишущей машинке, наконец, на компьютере.
К аппаратным средствам компьютера для ввода текстового документа относится клавиатура, световой карандаш со специальным планшетом, сканер.
К программным средствам, предназначенным для работы с текстами, относятся:
· электронные блокноты;
· текстовые редакторы;
· текстовые процессоры;
· редакционно-издательские системы;
· программы-переводчики;
· лингвистические корректоры;
· системы, осуществляющие интеллектуальный поиск и интеллектуальную обработку текстов, размещенных в сетях.
Текстовый редактор – программное средство, предназначенное для создания (ввода, набора), редактирования и оформления текстов. Примеры: «Лексикон», «Слово и дело», «Edit», «Ched», «Note Pad», «Write».
Текстовый процессор отличается от текстового редактора более широкими функциональными возможностями:
· настраиваемое пользователем меню;
· использование контекстного меню;
· сопровождение текста таблицами и проведение в них простейших расчетов;
· вставка графических объектов (рисунков, диаграмм, заголовков и пр.) или создание рисунков с помощью встроенных инструментов;
· вставка формул, графиков, диаграмм;
· оформление текста списками, буквицами;
· использование инструмента автокоррекции текста и его автореферирования;
· создание и использование макросов;
· фоновая проверка орфографии, синтаксиса и др.
Примеры: Word (Microsoft Office), Word Pro (Lotus Smart Suite), Word perfect (Perfect Office), Accent, Word Pad.
Редакционно-издательские системы должны обеспечить все функции текстового процессора, а также:
· воспринимать тексты, созданные в различных текстовых редакторах;
· воспринимать отсканированные или нарисованные в графических редакторах иллюстрации, созданные на ПК разных платформ, и корректировать их цвета;
· иметь большой набор шрифтов и возможность их графического преобразования;
· иметь возможность для различного «обтекания» рисунка текстом;
· обеспечивать автоматическое оптимальное размещение текста на странице, автоматическую нумерацию страниц;
· обеспечивать адаптацию к различным печатающим устройствам и т.п.
Программы-переводчики или компьютерные словари содержат переводы на разные языки сотен тысяч слов и словосочетаний. Их возможности, предоставляемые пользователю, заключаются в следующем:
· выбор языка и направления перевода;
· предоставление не только общеупотребительных, но и специализированных слов;
· обеспечение быстрого поиска словарных статей;
· предоставление мультимедийных услуг – прослушивание слов в исполнении дикторов.
Рассматривая технологию создания текста, необходимо знать определение таких понятий как шрифт, графема, сериф, кегль, а также пагинация, выключка, кернинг, интерлиньяж.
Графема – единица письменного знака, выступающая в различных вариантах в зависимости от стиля письма, места в предложении и т.д.
Шрифт – выполненные в едином стиле графемы букв, используемых для письма.
Сериф – завиток (росчерк, засечка), образующий окончание линии, которой изображена буква или знак (литера).
Кегль – размер шрифта, определяемый литерой.
Выключка – выравнивание длины печатных строк по заданному размеру путем увеличения промежутков между словами.
Пагинация (от английского page – страница) – разбивка на страницы.
Кернинг – уменьшение расстояния между буквами для более удобного и комфортного восприятия текста глазом.
Интерлиньяж – регулировка промежутка между строками.
Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.
Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы – программы-конверторы.
Рассмотрим некоторые наиболее распространенные форматы текстовых файлов.
Только текст (Text Only) (TXT). Наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца. Применяют этот формат для хранения документов, которые должны быть прочитаны в приложениях, работающих в различных операционных системах.
Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все форматирование. Преобразует управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями, в результате информационный объем файла существенно возрастает.
Документ Word (DOC). Оригинальный формат используемой в настоящее время версии Word. Полностью сохраняет форматирование. Использует 16-битную кодировку символов, что требует использование шрифтов Unicode.
Документ Word 2.0, Word 6.0/95 (DOC). Оригинальные форматы предыдущих версий редактора Word. При преобразовании из формата Word 97/2000/2003 форматирование сохраняется не полностью.
Works 4.0 для Windows (WPS). Оригинальный формат интегрированной системы Works 4.0. При преобразовании из формата Word форматирование сохраняется не полностью.
HTML-документ (HTM, HTML). Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.
Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.
Форматирование документа
Любой документ состоит из страниц, поэтому в начале работы необходимо задать значения параметров страницы: формат, ориентацию, размер полей и др.
При создании реферата, курсовой работы и др. целесообразно выбрать формат страницы А4, который соответствует размеру стандартного листа бумаги для принтера.
Существуют две возможные ориентации страницы – книжная и альбомная. Для обычных текстов чаще всего используется книжная ориентация, а, например, для таблиц с большим количеством столбцов – альбомная.
На странице можно установить требуемые размеры полей (верхнего, нижнего, правого и левого), которые определяют расстояние от краев страницы до границы текста. Для вывода на каждой странице документа одинакового текста (например, имени автора, названия документа и др.) удобно использовать верхний или нижний колонтитул. Расстояние от края страницы до колонтитула можно изменять.
Страницы документа требуется нумеровать, причем номера можно размещать по-разному (вверху или внизу страницы, по центру, справа или слева).
Абзац является одним из основных объектов текстового документа. В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши <Enter> и отображается символом ¶, если включен режим отображения непечатаемых символов.
Абзац может состоять из любого набора символов, рисунков и объектов других приложений. Форматирование абзацев позволяет подготовить правильно и красиво оформленный документ.
Выравнивание абзацев отражает расположение текста относительно границ полей страницы. Чаще всего используют четыре способа выравнивания абзацев: по левому краю, по центру, по правому краю, по ширине.
Чаще всего абзац начинается отступом первой строки. Отступ может быть различных типов: положительный отступ (когда первая строка начинается правее всех остальных строк абзаца), отрицательный отступ – выступ (когда первая строка выходит влево относительно остальных строк абзаца), нулевой отступ.
Расстояние между строками документа можно изменять, задавая различные значения междустрочных интервалов (одинарный, двойной и т. д.). Для визуального отделения абзацев друг от друга можно устанавливать увеличенные интервалы между абзацами.
Символы являются теми основными объектами, из которых состоит документ. Символы – это буквы, цифры, пробелы, знаки пунктуации, специальные символы. Символы можно форматировать, т. е. изменять их внешний вид.
Среди основных свойств символов можно выделить следующие: шрифт, размер, начертание и цвет.
Шрифт – это полный набор символов определенного начертания, включая строчные и прописные буквы, знаки препинания, специальные символы, цифры и знаки арифметических действий. Для каждого исторического периода и разных стран характерен шрифт определенного рисунка. Каждый шрифт имеет свое название. Например, наибольшей популярностью пользуются шрифты Times New Roman, Arial.
Единицей измерения размера шрифта является пункт (1 пт = 0,376 мм). Размеры шрифтов можно изменять в больших пределах (обычно от 1 до 1638 пунктов).
Кроме нормального (обычного) начертания символов обычно применяют полужирное, курсивное, полужирное курсивное.
Можно установить дополнительные параметры форматирования символов: подчеркивание символов различными типами линий, изменение вида символов (верхний индекс, нижний индекс, зачеркнутый), изменение расстояния между символами (разреженный, уплотненный) и др.
Если планируется многоцветная печать документа, то для различных групп символов можно задать различные цвета, выбранные из предлагаемой текстовым редактором палитры.
Для размещения в документе различных перечней применяются списки. Существуют следующие виды списков:
· нумерованные списки, когда элементы списка сопровождаются арабскими или римскими цифрами и буквами,
· маркированные списки, когда элементы списка отмечаются с помощью специальных символов-маркеров.
Возможно создание и вложенных списков, причем вкладываемый список может по своему типу отличаться от основного.
Иногда в текстовых документах используются таблицы. Таблица – это объект, состоящий из строк и столбцов, на пересечении которых образуются ячейки. С помощью таблиц можно форматировать документы, например, расположить абзацы в несколько рядов, совместить рисунок с текстовой подписью и так далее.
При размещении в таблице чисел можно производить над ними вычисления по формулам: суммирование, умножение, поиск максимального и минимального чисел и др.