Понятие оптического распознавания

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.

Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.

В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.

К сожалению,программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.

Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.

Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.

Следует отметить, что широко распространенные в сети Интернет книги в формате .djvu представляют собой нераспознанный текст. Большинство книг в формате .pdf также представляют собой отсканированные, но не распознанные изображения. Поиск и редактирование текста в таких книгах невозможны.

Сканирование текста

Сканирование текста для последующего распознания может осуществляться как предварительно (с сохранением изображений в графические файлы), так и непосредственно в программе ABBYY FineReader.

Разные модели сканеров «понимают» разные управляющие команды. В целях универсальности был принят стандарт TWAIN для взаимодействия сканера и приложений.Приложение посылает универсальные команды драйверу TWAIN,который преобразует их в инструкции конкретной модели сканера. Операционные системы Windowsподдерживает интерфейс TWAIN, a все современные сканеры совместимы с ним и их производители предоставляют необходимые драйверы.

Как правило, TWAIN-драйвер сканера запускается через программную группу в главном меню Windows (меню кнопки «Пуск»). Другим способом запуска TWAIN-интерфейса являются специальные команды некоторых графических редакторов (например, Файл – Получить – Со сканера… или Файл – Сканировать). Перед первым запуском таких команд в программе может понадобиться выбрать сканер, так как Windows поддерживает возможность одновременного подключения к компьютеру нескольких сканеров со своими TWAIN-драйверами.

Перед запуском TWAIN-драйвера сканер должен быть включен. Также у CCD-сканеров (см. лабораторную работу №1) от момента включения до начала сканирования первой страницы может пройти 1-5 минут (время разогрева ртутной лампы и стабилизации спектра ее свечения).

Интерфейсы TWAIN-драйверов большинства сканеров сильно различаются между собой, однако все они содержат практически одинаковые инструменты и функции. Более того, с выпуском новых моделей сканеров производители часто меняют интерфейс TWAIN-драйвера.

Подавляющее большинство инструментов TWAIN-драйвера рассчитано на тонкую настройку цветопередачи при сканировании фотографических изображений. С точки зрения оптического распознавания символов эти инструменты не нужны. В связи с этим в программе ABBYY FineReader предусмотрен собственный упрощенный интерфейс сканирования. Однако данный интерфейс может взаимодействовать не со всеми моделями сканеров.

В некоторых случаях на помощь может прийти альтернативный интерфейс WIA (Windows Image Acquisition – Получение изображений в Windows). Пользовательский интерфейс WIA разрабатывается Microsoft, производитель сканера лишь разрабатывает драйверы для совместимости сканера с WIA. WIA обладает значительно меньшей функциональностью по сравнению с TWAIN, но для простых задач, таких, как сканирование текста, он также вполне подходит.

Фотосъемка текста

Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики фотоаппарата и режим съемки. Перед съемкой следует убедиться в том, что:

Ø Страница целиком умещается в кадре и целиком его занимает (не остается излишних полей);

Ø Свет достаточно ровный, без теней на фотографируемом тексте;

Ø Фотографируемый документ расположен перпендикулярно оптической оси объектива, т.е. фотоаппарат должен быть расположен напротив центра текста. Неровности бумаги (у корешка книги, например) нужно по возможности разгладить.

Для качественного и устойчивого распознавания текста с листа размером А4 желателен фотоаппарат с разрешением матрицы не менее 5 мегапикселей.

По возможности нужно обеспечить хорошее освещение, лучше всего дневное. Желательно использовать подсветку двумя лампами с разных сторон, чтобы избежать образования теней.

Для съемки рекомендуется использовать штатив. Снимать лучше всего при максимальном оптическом увеличении («зуме»), при этом фотоаппарат должен быть максимально удален от текста.

Вспышку лучше всего отключить, поскольку она создает блики и резкие тени. Тем не менее, если внешнего света недостаточно, то можно использовать вспышку, при этом вести съемку с большого расстояния (минимум 1 метр). Даже при использовании вспышки все равно желательно подсветить документ другими источниками света. Категорически не рекомендуется использовать вспышку при съемке документов, отпечатанных на глянцевой бумаге, или лежащих под стеклом.

Если съемка ведется при ярком дневном свете и есть возможность управления диафрагмой (режим «A» или «Av» полупрофессиональных фотоаппаратов), значение диафрагмы лучше увеличить (закрыть диафрагму), чтобы получить более резкий по всей площади снимок. При недостаточном освещении можно выбрать большую чувствительность матрицы (большее значение ISO), так как шумы практически не влияют на качество распознавания. Выдержку (ей управляют в режиме «S» или «Tv» полупрофессиональных фотоаппаратов) по возможности следует сделать короткой, так как смазывание изображения на длинной выдержке полностью исключает будущее его распознавание. Если использовать короткую выдержку не получается (недостаточная освещенность текста), рекомендуется использовать стабилизатор изображения (если есть), штатив и таймер автоспуска (либо пульт дистанционного управления). Последние позволят избежать смещения фотоаппарата при нажатии на кнопку спуска.

Обязательным условием для распознавания является высокая резкость полученного изображения. Камеры мобильных телефонов для фотографирования текста должны оснащаться автофокусом. При недостаточном освещении автофокус некоторых камер может срабатывать плохо, в этом случае рекомендуется использовать ручную фокусировку либо подсветить текст.

Понятие оптического распознавания

Сканирование текста

Фотосъемка текста

Ø Страница целиком умещается в кадре и целиком его занимает (не остается излишних полей);

Ø Свет достаточно ровный, без теней на фотографируемом тексте;