Проверка и корректирование полученного изображения
1. Очистить от мусора
Распознаваемое изображение может быть сильно «замусорено», т. е. содержать много лишних точек, возникших в результате сканирования документов среднего или плохого качества. Точки, близко расположенные к контурам букв, могут отрицательно сказаться на качестве распознанного текста. Чтобы уменьшить количество лишних точек, можно воспользоваться опцией Очистить от мусора. Для этого в меню Изображение выбрать пункт Очистить изображение от мусора. Если надо очистить от «мусора» отдельный блок, то в меню Изображение выбрать пункт Очистить блок от мусора.
2. Инвертировать изображение
Некоторые сканеры инвертируют изображения при сканировании (черный цвет переводят в белый, а белый в черный). Чтобы получить стандартное представление документа (черный шрифт на белом фоне) надо в меню Изображение выбрать пункт Инвертировать. Если сканируются или открываются инвертированные изображения, то перед добавлением в пакет таких изображений в группе Обработка изображений на закладке Сканирование/Открытие (меню Сервис команда Опции) надо отметить пункт Инвертировать.
3. Повернуть или зеркально отразить изображение
По умолчанию программа при распознавании определяет и корректирует ориентацию изображения автоматически. Если ориентация изображения была определена ошибочно, то на закладке Сканирование/Открытие надо снять отметку с пункта Определять ориентацию страницы (в процессе распознавания) и повернуть изображение вручную.
Чтобы повернуть изображение:
· на 90 градусов вправо – нажать кнопку или выбрать в меню Изображение пункт Повернуть по часовой стрелке;
· на 90 градусов влево – нажать кнопку или выбрать в меню Изображение пункт Повернуть против часовой стрелки;
· на 180 градусов – выбрать в меню Изображение пункт Повернуть на 180 градусов.
Чтобы зеркально отразить изображение относительно:
· горизонтальной прямой – выбрать в меню Изображение пункт Зеркально отразить относительно горизонтали;
· вертикальной прямой – выбрать в меню Изображение пункт Зеркально отразить относительно вертикали.
4. Стереть участок изображения
Если надо исключить какой-то участок текста из распознавания или на изображении имеются большие участки мусора, то можно стереть такие участки. Для этого выбрать инструмент (на панели в окне Изображение) и, нажав на левую кнопку мыши, выделить участок изображения, который надо удалить. Отпустить кнопку, выделенная часть изображения будет удалена.
5. Увеличить/Уменьшить масштаб изображения
На панели Изображение (в окне Изображение) выбрать инструмент / и щелкнуть мышью на изображении. Изображение увеличится/уменьшится в два раза. Щелкнуть правой кнопкой мыши на изображение и в локальном меню выбрать пункт Масштаб и нужный масштаб.
6. Получить информацию об изображении
Можно получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения. Для этого щелкнуть правой кнопкой на изображение и в локальном меню выбрать пункт Свойства. В открывшемся диалоге выбрать закладку Изображение.
7. Печать изображения
Можно напечатать одно изображение, открытое в окне Изображение или несколько изображений, выделенных в окне Пакет, или все изображения. Для этого в меню Файл надо выбрать пункт Печать изображения и в открывшемся диалоге Печать установить параметры печати (принтер, количество печатаемых страниц, количество копий и т.д.).
8. Отменить последнее действие
Для отмены последнего действия на панели Стандартная нажать кнопку Отменить .
3. Анализ макета страницы
Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих–коды.
Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по кнопке Распознать одновременно с распознаванием текста.
Ручное выделение блоков может понадобиться, если надо распознать часть страницы или в результате автоматического анализа блоки были выделены неправильно.
Блоки – это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки отсканированной страницы надо распознавать, и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Можно изменить цвета рамок блоков, для этого на закладке Вид диалога Опции (меню Сервис команда Опции) в группе Объекты. В поле Объект выбрать нужный тип блока, а в поле Цвет – требуемый цвет.
При обработке изображений выделяют блоки следующих типов:
· зона Распознавания – блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку Распознать выделенный блок автоматически анализируется и распознается;
· Текст – блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, их выделяют в отдельные блоки;
· Таблица – этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Можно выделить и отредактировать таблицу вручную;
· Картинка – этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую надо передать в распознанный текст в качестве картинки;
· Штрих–код – этот блок используется для распознавания штрих–кодов. Т.е., если документ содержит штрих–код и его надо передать не картинкой, а перевести его в последовательность букв и цифр, то выделить штрих–код в отдельный блок и присвоить ему тип Штрих–код.
Тип страницы
Для большинства изображений расположение текста на странице определяется автоматически, чему соответствует значение Авто на закладке Распознавание в группе Тип страницы (меню Сервис команда Опции), устанавливаемое системой по умолчанию. В некоторых случаях может потребоваться установить значение типа страницы вручную. Для этого на закладке Распознавание диалога Опции (меню Сервис команда Опции) в группе Тип страницы выбрать нужный пункт.
Возможные типы страницы:
· автоматическое определение – указывает, что текст на странице расположен в одну колонку и напечатан моноширинным шрифтом одного размера. В распознанном тексте сохраняется деление на строки; отступы от левого края передаются пробелами; каждая строка выделяется в отдельный абзац, и расстояния между абзацами передаются пустыми строками. Используется, например, для распознавания распечаток текстов программ;
· одна колонка – указывает, что текст на странице напечатан в одну колонку. Эта опция используется в случае, если автоматическое определение ошибочно сегментировало страницу как многоколоночный текст;
· форматированный пробелами текст – указывает, что расположение текста на странице определяется автоматически. Это значение устанавливается системой по умолчанию; подходит для распознавания всех видов текстов, в том числе многоколоночного текста, текста с таблицами и картинками.
Опции анализа таблиц
В большинстве случаев программа делит таблицу на строки и столбцы автоматически. Дополнительная настройка опций анализа таблиц устанавливается на закладке Распознавание в группе Таблицы. Эти опции рекомендуется использовать, если в результате автоматического анализа макета страницы таблица была выделена и разделена на строки и столбцы неверно или документ содержит много однотипных таблиц, для которых известна дополнительная информация (например: таблица не содержит объединенных ячеек или таблица состоит из ячеек, текст в которых расположен в одну строку).
1. Опция В каждой ячейке таблицы не более одной строки текста используется для анализа таблиц с неполным количеством или без черных разделителей, с ячейками, содержащими не более одной строки текста.
2. Опция Таблица не содержит объединенные ячейки используется для анализа таблиц, не содержащих объединенных ячеек.
Чтобы создать новый блок надо:
1. Выбрать один из инструментов:
o выделить зону распознавания;
o выделить текстовый блок;
o выделить картинку;
o выделить табличный блок.
2. Установить курсор мыши в угол предполагаемого блока. Нажать левую кнопку мыши и, не отпуская кнопки, потянуть в противоположный по диагонали угол.
3. Отпустить кнопку мыши. Выделенная часть изображения будет заключена в рамку.
Можно поменять тип блока (присвоить выделенному блоку один из существующих типов: Зона распознавания, Текст, Таблица, Картинка или Штрих–код). Для этого надо щелкните на блоке правой кнопкой мыши и в локальном меню выбрать Тип блока, а затем – нужный пункт.
Чтобы передвинуть границу блока:
1. Установить курсор мыши на границу блока.
2. Нажать левую кнопку мыши и потянуть в нужную сторону.
3. Отпустить кнопку мыши.
Чтобы добавить прямоугольную часть блока:
1. Выбрать инструмент .
2. Установить курсор мыши внутри блока, к которому надо добавить часть. Нажать левую кнопку мыши и, не отпуская кнопки, потянуть по диагонали. Выделив нужную часть изображения, отпустить кнопку мыши. Выделенный прямоугольник будет добавлен к блоку.
3. Если нужно, можно передвинуть границу блока.
Чтобы удалить прямоугольную часть блока:
1. Выбрать инструмент .
2. Установить курсор мыши внутри блока, там, где надо вырезать часть. Нажать левую кнопку мыши и, не отпуская кнопки, потянуть по диагонали. Выделив нужную часть изображения, отпустить кнопку мыши. Выделенный прямоугольник будет удален из блока.
3. Если нужно, можно передвинуть границу блока.
Чтобы выделить один или несколько блоков надо выбрать инструмент и щелкнуть мышкой по нужному блоку или, удерживая кнопку мыши, нарисовать прямоугольник, охватывающий нужные блоки.
Можно выделить один или несколько блоков, используя стандартные инструменты выделения блоков. Чтобы выбрать несколько блоков, надо нажать клавишу Shift или Ctrl (при этом должен быть выбран один из инструментов: , , или ) и мышью щелкнуть на требуемых блоках. Чтобы отменить выделение уже выбранного блока или добавить невыделенные блоки, нажать клавишу Ctrl (при этом должен быть выбран один из инструментов: , , или ) и мышью щелкнуть на требуемых блоках.
Чтобы передвинуть блок надо нажать клавишу Alt (при этом должен быть выбран один из инструментов: , , или ) и мышью переместить блоки.
Чтобы перенумеровать блоки:
1. Выбрать инструмент .
2. Выделить блоки в том порядке, в котором надо видеть их содержимое в выходном тексте.
Если перенумеровываются блоки на уже распознанном изображении, то одновременно в окне Текст в черновом режиме редактора происходит перегруппировка распознанного текста в соответствии с новой нумерацией.
Чтобы удалить блок:
1. Выбрать инструмент и выделить блок, который надо удалить.
2. Выделить блоки, которые надо удалить, и нажать клавишу DEL.
Если удаляется блок с уже распознанного изображения, то одновременно с этим в окне Текст удаляется текст, соответствующий этому блоку.
Чтобы удалить все блоки на изображении надо в меню Пакет выбрать пункт Удалить блоки и текст.
Чтобы отредактировать таблицу вручную можно использовать инструменты (панель в окне Изображение):
· добавить вертикаль;
· добавить горизонталь;
· удалить линию.
Если ячейка таблицы содержит только картинку, в диалоге Свойства блока (меню Вид команда Свойства) отметить пункт Считать ячейку картинкой. Если же, помимо картинки, в ячейке содержится некоторый текст, то надо выделить картинку в отдельный блок внутри ячейки.
Чтобы объединить ячейки или строки таблицы:
1. В меню Правка выбрать пункты Объединить ячейки таблицы или Объединить строки таблицы. При объединении строк таблицы деление на столбцы остается.
2. Объединенные ячейки можно снова разделить, воспользовавшись командой Разбить ячейки таблицы (меню Правка).
4. Распознавание и сохранение
Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы.
Чтобы запустить распознавание надо:
1. Нажать кнопку Распознать на панели Scan&Read.
2. В меню Процесс выбрать нужный пункт:
o Распознать – чтобы распознать открытую страницу или все страницы, выделенные в окне Пакет;
o Распознать все – чтобы распознать все нераспознанные страницы пакета;
o Распознать Блок – чтобы распознать блок или несколько блоков, выделенные на изображении;
o Запустить фоновое распознавание – чтобы запустить распознавание в фоновом режиме.
Кнопка Распознать запускает распознавание открытого изображения. Чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите нужный пункт.
FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско–украинских) документов. При распознавании текстов на английском или немецком языках можно воспользоваться одноименными языками с медицинскими и юридическими словарями. Данные языки, помимо тематических словарей, включают в себя также и обычные словари FineReader.
Чтобы указать язык распознаваемого текста надо выберите соответствующую строку в списке на панели Распознавание (рис. 35.4).
Рис. 35.4. Выбор языка распознавания
Если надо распознать документ, написанный на нескольких языках, то:
1. В списке языков на панели Стандартная выбрать пункт Выбор нескольких языков…
2. В открывшемся диалоге Язык распознаваемого текста указать несколько языков. Для этого отметить пункты с соответствующими названиями языков.