Выбор цветового режима сканирования: серый, цветной и чёрно-белый
Лучше всего сканировать в сером, на это есть три причины: не нужно отдельно сканировать картинки; не будет на полях чёрных прямоугольников, часто порождаемых недорогими сканерами при сканировании в режиме LineArt (ч/б); качество распознавания в сером всё же выше, в т.ч. в области сгиба разворота страниц. Но есть и свои недостатки: на слабых машинах сканирует дольше; занимает довольно много места.
Понятно, что если в книге нет картинок или они сгруппированы во вклейках, большого смысла сканировать в сером нет. Сканирование же в цвете пока неактуально.
Примеры
Книга 1. Без картинок (либо если фотографии в виде вклейки, они тогда сканируются отдельно), только текст. Сканируем в режиме LineArt, т.е. не в цвете, и не в сером, а чёрно-белый документ. В этом режиме для настойки доступна только яркость, ею и оперируйте, добившись наиболее четкого сканирования.
Книга 2. С обильными картинками в тексте.
Можно сканировать книгу в Adobe Photoshop или в прилагающейся к сканеру программке, но только не в FineReader. Причина, некорректная обработка tif-ов. Сканировать надо в режиме Greyscale (если иллюстрации чёрно-белые) или в режиме TrueColor, если картинки цветные (и вы их хотите оставить цветными). Однако объёмы будут большими. Отсканировав книгу, вы вытаскиваете оттуда картинки и распоряжаетесь ими по своему разумению. Далее изображения передаются в FineReader.
До этого создайте новый пакет Ctrl+N (Файл -> Новый пакет) и поставьте нужные значения в меню Сервис -> Опции -> Сканирование / Открытие (всениже приведенные установки только рекомендуются). Использовать интерфейс TWAIN-драйвера. Обработка изображений: отчистить от мусора, определить ориентацию страницы, приводить цветное/серое изображение к черно-белому.
Затем - либо Ctrl+O (Файл -> Открыть изображение) и выделяете все картинки, которые хотите вставить FR; либо просто выделяете все эти картинки и перетаскиваете в окно "Пакет".
Перед началом распознавания нужно сделать следующее.
Обязательно распознавайте с обучением (или с использованием пользовательского эталона). Чтобы создать свой эталон, вначале нужно обучить программу. Даже если вы сканируете одну книгу с таким оформлением, сделайте обучение, чтобы не исправлять ошибки потом, после распознавания. А уж если вы сканируете книги одного издательства, одной серии, оформленные одной гарнитурой - обучение тем более необходимо. Последовательность действий такова:
1. Сервис -> Опции -> Форматирование, ставьте следующие параметры: сохранять начертание и размер шрифта.
Затем нажмите в этом меню кнопочку "Форматы", и в появившемся меню поставьте следующее: удалять мягкий перенос, сохранять цвет текста и сохранять деление на страницы. "Сохранять деление на страницы" поможет вам расставлять номера страниц. Вы также можете отметить, чтобы FR выделял неуверенно распознанные символы, если вам это удобно.
2. Сервис -> Опции -> Распознавание, далее ставьте следующее: тип страницы – авто, тип печати – авто и обучение – распознавание с обучением.
Затем нужно выбрать язык распознавания. Пролистайте книгу, если, на ваш взгляд, там нет ничего на иностранных языках, ставьте "Русско-английский" (подстраховка).
Каждый новый язык немного замедляет процесс распознавания (кроме выбора "Русско-английский"), но зато в тексте остаются все умляуты и апострофы.
Дальше вы начинаете распознавание (с обучением, как и выбрали). Распознав 2-3 страницы, сохраните эталон в файл. (Учтите, что при удалении пакета может быть удалён и эталон). Поэтому, если он вам нужен (он имеет расширение .ptn), сохраните его отдельно.
Когда у вас появится файл-эталон для определенного типа книг, то в следующий раз распознавать можно без обучения. Нужно будет только пометить в меню Распознавание, что распознавать надо с пользовательским эталоном и выбрать ваш файл.
Перед распознаванием расставляются блоки. Делать это можно вручную, а можно автоматически. В книге без картинок это можно сделать автоматически. Если есть картинки, но текст одноколоночный, тоже автоматически.
А вот если текст многоколоночный (с картинками или без них), то нужно расставлять блоки отдельно, а потом просматривать всю книгу перед распознаванием.
На то, что FR выделяет картинки, не обращайте внимания, всё равно картинки не сохранятся (в Fine Reader 6.0 этот недостаток исправлен).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Леонтьев В.П. Новейшая энциклопедия персонального компьютера 2003 / В.П. Леонтьев. – М.: ОЛМА-ПРЕСС, 2003. – 920 с.: ил.
2. Симонович С.В. Специальная информатика: Универсальный курс: Учеб. пособие / С. В. Симонович, Г.А. Евсеев, А.Г. Алексеев. - М.: АСТ-ПРЕСС КНИГА: Информ-Пресс, 2002. - 480 с.: ил.
3. Информатика: Учебник / Под ред. Н.В. Макаровой. – 3-е изд., перераб. – М.: Финансы и статистика, 1999. – 768 с.: ил.
Пособие обсуждено и рекомендовано к внутривузовскому изданию на заседании кафедры «Информатика», протокол № 5 от 28.03.03., согласовано на заседании НМСС, протокол № 5 от 14.01.03.
Ответственный за выпуск Н.В. Ковбасюк
Редактор В.В. Крайнова
Технический редактор Т.В. Кватер
Компьютерная верстка Е.Н. Черненко
ИД № 06457 от 19.12.01 г. Подписано в печать 07.04.03.
Печать оперативная. Усл. п.л. 1,2. Уч.-изд. л. 1,0. Тираж 100 экз.
Заказ №42.
ПЛД № 65-175. Издательство ЮРГУЭС.
Типография Издательства ЮРГУЭС.
346500, г. Шахты, Ростовская обл., ул. Шевченко, 147.
|
|
|