Технологии электронного документооборота и управления знаниями
Первые системы электронного документооборота (СЭД) состояли из трёх частей: системы управления документами, системы массового ввода бумажных документов, системы автоматизации деловых процессов.
Система управления документами обеспечивает интеграцию с приложениями, хранение данных на разных носителях, распределённую обработку данных, поиск, индексацию электронных документов, коллективную работу с электронными документами. Разнообразие электронных документов на предприятии порождают используемые приложения. Интеграция с ними осуществляется на уровне операций с файлами, то есть операции приложения - открытие, закрытие, создание, сохранение и другие - замещаются соответствующими операциями системы управления документами. Интеграция выполняется автоматически. Это сложная работа, но её достоинство в том, что сохраняются принятые на предприятии виды документов.
Следующей задачей является обеспечение хранения электронных документов на разных носителях (серверах, оптических дисках, библиотеках-автоматах и т. д.). К тому же надо обеспечить быстрый поиск и доступ к различным устройствам хранения информации, чтобы факторы доступности и стоимости хранения всегда были в оптимальном соотношении в зависимости
от важности и актуальности информации. Для этого используют технологии информационных хранилищ.
Для хранения электронных документов используются SQL-серверы.
Для обеспечения распределённой обработки данных в режиме on-line можно напрямую присоединиться к офисной сети и получить доступ к информационному хранилищу посредством транзакций. Можно посредством сети Интернет подсоединиться к Web-серверу предприятия и тем самым получить доступ к удалённым данным. Можно в режиме off-line по электронной почте послать запрос в информационное хранилище, задав критерии выбора. По этим критериям будет оформлен список документов и переправлен пользователю. Этим способом коммерческая служба может оказывать информационные услуги. Если для хранения документов организовано несколько информационных хранилищ, то используют сетевую СУБД.
Для организации быстрого поиска документов используется их индексация. Система индексации может быть атрибутивной или полнотекстовой.
При атрибутивной индексации электронному документу присваивается некий набор атрибутов, представленных текстовыми, числовыми или иными полями, по которым выполняются поиск и доступ к искомому документу. Обычно это выглядит как каталожная карточка, где сохраняются имя автора, дата, тип документа, несколько ключевых слов, комментарии. Поиск ведётся по одному или нескольким полям либо по всей совокупности.
При полнотекстовом индексировании все слова, из которых состоит документ, за исключением предлогов и незначительных для поиска слов, заносятся в индекс. Тогда поиск возможен по любому входящему слову или их комбинации. Возможна комбинация методов, что усложняет систему, но упрощает пользователю работу с ней.
Ряд проблем возникает при коллективной работе с документами. Для предотвращения одновременного редактирования документа двумя или более пользователями приоритет отдаётся пользователю, первому открывшему документ. Все остальные пользователи работают с документом в режиме «только для чтения». Так как многие пользователи могут редактировать и вносить изменения в документ, им выдаются полномочия на редактирование документа, все изменения протоколируются, чтобы дать возможность Администратору отследить этапы прохождения документа через инстанции и его эволюцию.
Каждому сотруднику назначается пароль и право доступа, чтобы документ оставался недоступным любопытным. Права доступа также разделяются. Одни могут выполнять полное редактирование и уничтожение документа,
другие - только просматривать. Третьим разрешён доступ к отдельным полям документа.
Вторую часть электронного документооборота составляет система массового ввода бумажных документов. Эта система предназначена для массового ввода бумажных документов архива посредством сканера и перевода их в электронный вид.
В контексте обработки документы делятся на две группы — просто документы и формы. Формы, в отличие от просто документов, содержат массу избыточной, с точки зрения электронной обработки, информации. К ней относятся линии, пиктограммы, графление, подписи, кляксы и т.д.
Первой операцией является сканирование. Сканер должен обеспечивать приемлемое разрешение при высокой скорости сканирования и наличие системы автоподачи документов.
В случае перекосов, возникающих при сканировании, применяется операция выравнивания изображения документа.
Следующей операцией является чистка изображения документа. Многие бумажные документы содержит пятна, шероховатости, линии сгиба и другие дефекты, которые глаз не замечает. Они переходят в электронный образ документа и сильно мешают при электронной обработке. Поэтому проводится очищение изображения. Кроме того, зачастую документы имеют фон, одноцветный или разноцветный (например, на ценных бумагах), который необходимо снять посредством фильтрации и выделения.
Следующая операция подготавливает документ к распознаванию. Трудности возникают, когда элементы букв пересекаются с элементами форм, а также из-за дефектов бумаги и т.д. Системы распознавания удаляют элементы форм так, чтобы не пострадал текст.
Следующая операция - распознавание. Существует огромное число систем распознавания, которые можно разделить на два класса: системы оптического распознавания OCR, которые работают только с полиграфическим текстом, и интеллектуальные системы распознавания ICR, работающие с рукописным текстом. Системы ICR распознают также штрих-коды, специальные метки.
Для каждого документа, прошедшего систему массового ввода, создается задание. Задания размещаются на сервере баз данных. Часть операций системы массового ввода реализуется программно, другая - сервером. Для обеспечения перечисленных операций выделяют сервер приложений, сервер сканирования и предварительной обработки изображений, сервер обработки изобра-
жений и распознавания (OCR-сервер или ICR-сервер). Число серверов может быть различным, для их координации используются серверы баз данных.
После того как документ распознан, он поступает в систему управления документами, где проводится его индексация. Во многих системах функции управления документами и массового ввода совмещены. Примером является система Евфрат корпорации Cognitive Technologies.
Третья часть электронного документооборота — автоматизация деловых процессов (АДП). Она предназначена для моделирования деятельности каждого сотрудника, работающего с электронными документами. Состоит из графического редактора, модуля преобразования карт деловых процессов в конкретное АДП - приложение, модуля управления деловыми процессами.
Графический редактор, обрабатывающий задания, размещает карты деловых процессов в базу карт деловых процессов. Затем АДП - приложения поступают на выполнение. Работает модуль управления деловыми процессами. Создается рабочее пространство сотрудников и их интерфейс: окно входящих заданий и окно исходящих заданий. Для каждого задания показываются его параметры и статус. Сотрудник может видеть всю иерархию документных баз и работать одновременно с несколькими из них. Он может осуществлять сквозной поиск документов в разных базах, строить маршрут движения (workflow), редактировать документы, выполнять деловые операции. При этом обеспечивается контроль исполнительской дисциплины и уведомление о штрафных санкциях.