Зачем и как распознавать книги?
Анекдот: Программист звонит в библиотеку. — Здравствуйте, Катю можно? — Она в архиве. — Разархивируйте ее пожалуйста. Она мне срочно нужна!
© http://anekdoty.ru/pro-biblioteki/
Остановлюсь на данном вопросе подробнее, т.к. постоянно с ним сталкиваюсь. Проработавшине одну сотню книг, мне есть что написать, по данному поводу. Тем более что, к сожалению, как я понял,многие до сих пор еще не знают - зачем книги распознавать (оцифровывать). Хотя, надеюсь вопросов - «зачем их сканировать?» - уже нет. Т.к. преимущество электронных книг над бумажными описывал в других статьях (главах). Данная тематика очень обширна и выходит далеко за рамки пары статей, поэтому попробую её ограничить. Пока не буду затрагивать проблематику авторских прав, очередной раз высмеивать староверов (любителей понюхать)типографские краски, а также оставлю в стороне много других нюансов касающихся книг. Уделю внимание именно на разнице распознанного и не распознанного текста, лишь упомянув программы для такого «метаморфоза».
Традиционно считается лучшим способом распознавания текста с помощью программы --ABBYYFineReader. Хотя, такая возможность имеется и в AcrobatPro.Увы, обе программы платные, а бесплатные аналоги типаCuneiForm, Scankromsator и др. пока оставляют желать лучшего. Но хотелось бы верить, что уже есть или появится достойный бесплатный аналог FineReader.
Чем же все токи является распознанный и не распознанный текст? Извиняюсь, что приходиться останавливаться на данных очевидностях,однако, именно о них пойдет речь. Мне часто приходилось сталкиваться с людьми, которые далеки от пониманияразницы. То ли в компьютере они используют только кнопку «ВКЛ\ВЫКЛ», то ли книги читают исключительно глазами, не чего с ними больше не делая. А что с ними еще можно делать? – возникнет резонный вопрос. Вот его и разберу ниже.
Одна из загвоздок в том, что распознанный и не распознанный текст, порой глядя на экран внешне практический не чем не отличается. И в том, и в том видны буквы, и тот и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста.Но все же разница между ними существенна. Не распознанный текст — это просто картинка. Буквы, так сказать, в ней зафиксированы как на обычной фотографии. Что-либо дописать, а тем более изменить, в таком тексте (без доп. обработки)крайне сложно. Единственным его преимуществом есть то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе на этом преимущества сканированных картинок перед тем же, нораспознанным текстом заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный) и не удобство работыс ним и многое другое. Но опишу те же недостатки,в виде преимуществраспознанного текста перед не распознанным.
5 преимущества распознанного (так называемого OCRтекста):
От части те же преимущества были указаны и в подразделе «8 преимуществ которые дают цифровые книги.» поэтому просто напомню.
1 – малый размер,
2 – более простая возможность редактирования,
3 –удобное иногда автоматическое добавления закладок,
4 – поиск по тексту (который не возможен, если текст является картинкой),
5 – одно из самых главных преимуществ, которым многие пока не пользуются, являетсявозможность прослушать текст с помощью синтезаторов речи. Я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.
Таким образом, чтобы проработать книгумне не раз приходилось её либо сканировать или фотографировать, либо уже сканированные скачанные с интернета книги переводить в понятные компьютеру буквы, а не фотографии букв,видных лишь на экране. Хотя благо в интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография или изначально цифровых. Тем не менее, как уже писал, достаточно много людей не умеют, или не хотят пользоваться данными возможностями, не смотря на все их преимущества. Но это уже другая социальная проблема, которую уже рассматривал ранее, но постараюсь на ней еще остановиться. Так же в другой статье более подробно рассмотрюразницу между распознанным и не распознанным текстом, но уже так сказать глазами ЭВМ.