Этапы обработки бумажных документов
Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т.д. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму.
Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования:
– в ходе сканирования при помощи устройств оцифровки изображения производится создание электронного образа (растрового изображения) документа;
– процесс распознавания позволяет преобразовать электронное изображение в текстовые данные (с сохранением элементов форматирования оригинала или без них);
– для документов, исполненных на иностранном языке, применяют дополнительные средства автоматизированного перевода на другой язык.
Сканирование документов
Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер. Последние поколения цифровых камер уже могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание, однако сканирование часто удобнее и производительнее, чем фотосъемка.
Сканер является внешним устройством. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи. Современные сканеры чаще всего используют для подключения шину USB 2.0. Сканеры предыдущих поколений использовали порт принтера (обеспечивает низкую производительность) или интерфейс SCSI (Small Computer System Interface).
Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые конкретной моделью сканера. Таким образом, для приложения конкретная модель сканера перестает иметь значение. Операционная система Windows ХРподдерживает интерфейс TWAIN, a все современные сканеры совместимы с ним и предоставляют необходимые драйверы нижнего уровня.
Сканирование через посредство интерфейса TWAINосуществляется следующим образом. Сначала следует включить сканер (ламповые сканеры должны прогреться несколько минут для получения оптимальной передачи белого цвета) и запустить в выбранном пользователем приложении команду получения изображения со сканера. После выбора этой команды открывается диалоговое окно драйвера TWAIN,вид которого зависит от модели сканера. В этом окне задают параметры сканирования: черно-белый или цветной режим, разрешение, параметры коррекции яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования – часть страницы документа.
После настройки всех параметров следует запустить в окне TWAIN-драйвера итоговое сканирование. Изображение передается в приложение. Диалоговое окно драйвера TWAINавтоматически не закрывается, так что в многооконных графических редакторах (таких, как Adobe PhotoShop)можно сразу провести сканирование нескольких изображений.
Некоторые сканеры поддерживают технологию WIA (Windows Image Acquisition), при которой взаимодействие программ со сканером происходит через унифицированный драйвер Windows. Количество доступных настроек сканирования при этом, как правило, минимально.
Распознавание документов
Этап оптического распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition). При этом происходит «сравнение» элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов: программа, как и человек, способна узнавать буквы при любых начертаниях (а иногда и при значительных искажениях).
В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки – на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.
Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы ABBYY FineReader. Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.
Для удобства обработки многостраничных документов в программе используется понятие пакета, позволяющего обрабатывать несколько многостраничных проектов по очереди. Все файлы каждого пакета для удобства сохраняются в свою папку на жестком диске.
С точки зрения программы, процесс обработки документа состоит из пяти этапов:
– Сканирование документа;
– Сегментация документа;
– Распознавание документа;
– Редактирование и проверка результата;
– Сохранение документа.
В программе FineReader сканирование может производиться как через драйвер TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканирования, а также когда разные страницы многостраничного документа сильно различаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования, в особенности книг.
Процесс сканирования осуществляется автоматически и требует от пользователя только вспомогательных операций, таких, как смена сканируемой страницы. Возможность вмешательства в работу программы заблокирована размещением на экране специального диалогового окна, уведомляющего о том, что идет сканирование, и позволяющего прервать это процесс. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имеющихся на компьютере (например, отсканированных или отснятых заранее).
Сегментация представляет собой процесс разбиения страницы на блоки текста. Обычная книжная страница представляет собой единый блок текста, который распознается в естественном порядке – по строкам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.
В таком случае содержимое страницы разбивается на блоки. Внутри каждого блока сохраняется естественный порядок распознавания. Блоки нумеруются, исходя из порядка включения их в документ. Программа FineReader способна выполнить сегментацию (определить границы блоков) автоматически даже для весьма сложных страниц. При этом учитываются поля документа, просветы между колонками, рамки.
Если структура страницы очень сложна или содержит явные дефекты, которых не всегда удается избежать при сканировании, удобнее использовать ручную сегментацию или ручное редактирование результатов автоматической сегментации.
Разные типы блоков обрабатываются программой по-разному. Программа FineReader поддерживает следующие типы блоков:
– Зона распознавания – на этапе распознавания блок анализируется и разбивается на другие блоки автоматически;
– Текст – на этапе распознавания преобразуется в текст;
– Таблица – представляет собой набор ячеек, каждая из которых преобразуется в текст по отдельности; при сохранении документа форматируется также в виде таблицы, если выходной формат это поддерживает;
– Картинка – включается в документ без изменений как графическая иллюстрация, если формат сохранения преобразованного документа допускает вставные объекты.
– Штрих-код – распознается особым алгоритмом.
Процесс распознавания текста после сегментации полностью автоматизирован. В ходе процесса отображается диалоговое окно, позволяющее оценить и прервать процесс. Кроме того, в этом окне отображаются сообщения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изображения. Если же дело в каких-то шрифтовых особенностях распознаваемого документа, применяют распознавание с обучением.
Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Режим распознавания с обучением включается при настройке параметров работы программы (диалоговое окно настроек программы, вкладка, посвященная распознаванию).
Когда в ходе распознавания с обучением программа FineReader обнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно «Ручное обучение эталона». Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ или уточнить область распознавания. Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Когда число ошибок станет незначительным, можно закрыть окно и продолжить распознавание в обычном режиме.
Предпоследний этап работы позволяют отредактировать полученный текст с помощью средств, напоминающих простой текстовый редактор. При желании можно провести проверку орфографии с учетом трудностей распознавания (сомнительных символов, в точности распознавания которых программа не уверена). FineReader располагает своими достаточно емкими орфографическими словарями. Однако в случае, если подавляющее большинство неуверенно распознанных символов были распознаны правильно, проверка средствами Microsoft Word может оказаться удобнее.
Мастер сохранения результатов позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки. Помимо сохранения результатов в файл соответствующего формата имеется возможность передать распознанный текст в нужную программу, автоматически запустив ее и создав в ней чистый документ. Такой прием позволяет сразу же перейти к редактированию документа в привычной программе (например, Microsoft Word).
В настройках программы можно достаточно тонко сконфигурировать сохранение распознанного текста, указать, какие из элементов форматирования нужны, а какие следует игнорировать.
Лекция 17
Вопросы компьютерной безопасности
В вычислительной технике понятие безопасности является весьма широким. Оно подразумевает и надежность работы компьютера, и сохранность ценных данных, и защиту информации от внесения в нее изменений неуполномоченными лицами, и сохранение тайны переписки при электронной связи. Разумеется, во всех цивилизованных странах на страже безопасности граждан стоят законы, но в сфере вычислительной техники правоприменительная практика пока развита недостаточно, а законотворческий процесс не успевает за развитием технологий, поэтому надежность работы компьютерных систем во многом опирается на меры самозащиты.
Компьютерные вирусы
Компьютерный вирус – это программный код, встроенный в другую программу, или в документ, или в определенные области носителя данных и предназначенный для выполнения несанкционированных действий на несущем компьютере. Ключевой особенностью компьютерных вирусов является способность совершать скрытое от пользователя проникновение в компьютерную систему (заражение компьютера).
Основными типами компьютерных вирусов являются:
– программные вирусы;
– загрузочные вирусы;
– макровирусы.
– Интернет-вирусы
К компьютерным вирусам примыкают и так называемые троянские кони (троянские программы, трояны). Основное назначение последних – отыскивать в компьютерной системе конфиденциальную информацию и скрыто отправлять ее через Интернет злоумышленнику.
Программные вирусы
Программные вирусы – это блоки программного кода, целенаправленно внедренные внутрь других прикладных программ. При запуске программы, несущей вирус, происходит запуск имплантированного в нее вирусного кода. Работа этого кода вызывает скрытые от пользователя изменения в файловой системе жестких дисков и/или в содержании других программ. Так, например, вирусный код может воспроизводить себя в теле других программ – этот процесс называется размножением. В определенный момент, создав достаточное количество копий, программный вирус может перейти к разрушительным действиям – нарушению работы программ и операционной системы, удалению информации, хранящейся на жестком диске. Этот процесс называется вирусной атакой.
Самые разрушительные вирусы могут инициировать форматирование жестких дисков. Поскольку форматирование диска – достаточно продолжительный процесс, который не должен пройти незамеченным со стороны пользователя, во многих случаях программные вирусы ограничиваются уничтожением данных только в системных секторах жесткого диска, что эквивалентно потере таблиц файловой структуры. В этом случае данные на жестком диске остаются нетронутыми, но воспользоваться ими без применения специальных средств нельзя, поскольку неизвестно, какие сектора диска каким файлам принадлежит. Теоретически восстановить данные в этом случае можно, но трудоемкость этих работ исключительно высока.
Считается, что никакой вирус не в состоянии вывести из строя аппаратное обеспечение компьютера. Однако бывают случаи, когда аппаратное и программное обеспечение настолько взаимосвязаны, что программные повреждения приходится устранять заменой аппаратных средств. Так, например, в большинстве современных материнских плат базовая система ввода-вывода (BIOS) хранится в перезаписываемых постоянных запоминающих устройствах (так называемая флэш-память). Возможность перезаписи информации в микросхеме флэш-памяти используют некоторые программные вирусы для уничтожения данных BIOS. В этом случае для восстановления работоспособности компьютера требуется либо замена микросхемы, хранящей BIOS, либо ее перепрограммирование на специальных устройствах, называемых программаторами.
Программные вирусы поступают на компьютер при запуске непроверенных программ, полученных на внешнем носителе (гибкий диск, компакт-диск и т. п.) или принятых из Интернета. Особое внимание следует обратить на слова при запуске. При обычном копировании зараженных файлов заражение компьютера произойти не может. В связи с этим все данные, принятые из Интернета, должны проходить обязательную проверку на безопасность, а если получены незатребованные данные из незнакомого источника, их следует уничтожать, не рассматривая.
Загрузочные вирусы
Они поражают не программные файлы, а определенные системные области носителей (гибких и жестких дисков, флэш-накопителей). Кроме того, на включенном компьютере они могут временно располагаться в оперативной памяти.
Обычно заражение происходит при попытке загрузки компьютера с магнитного носителя, системная область которого содержит загрузочный вирус. Сложность борьбы с этими вирусами заключается в том, что они запускаются на компьютере до того, как пользователь сможет произвести с ним любые действия. При попытке удалить такой вирус он автоматически повторно заражает систему.
Макровирусы
Эта особая разновидность вирусов поражает документы, выполненные в некоторых прикладных программах, имеющих средства для исполнения так называемых макрокоманд. В частности, к таким документам относятся документы текстового процессора Microsoft Word (они имеют расширение .DOC).Заражение происходит при открытии файла документа в окне программы, если в ней не отключена возможность исполнения макрокоманд. Как и для других типов вирусов, результат атаки может быть как относительно безобидным, так и разрушительным. Пик популярности таких вирусов пришелся на начало двухтысячных, сейчас популярность их идет на спад.
Интернет-вирусы
Особенностью таких вирусов является целенаправленная деятельность зараженного компьютера в Интернете, чаще всего направленная на получение авторами вирусов прибыли. Вирусы этого типа могут использовать компьютер пользователя для совершения противоправных действий либо навязывать пользователю мошеннические услуги. В настоящее время ежемесячно в мире создаются новые схемы имущественных преступлений с использованием Интернет-вирусов. Для заражения компьютера практически всегда достаточно посетить зараженный вирусом сайт.