GScan2Pdf: сканирование и распознавание документов в Linux


GScan2Pdf — объединяющий графический интерфейс к множеству инструментов для обработки сканов документов в системах GNU/Linux. ОС: UNIX-like. Лицензия: GPL. Сайт: gscan2pdf.sourceforge.net/


Тем, кто ищет аналог Fine Reader для систем GNU/Linux, часто рекомендуют программу GScan2Pdf. Действительно, с помощью этого приложения можно сканировать, импортировать изображения документов, распознавать текст и экспортировать отсканированные документы в файлы PDF.

Но самом деле GScan2Pdf — это не самостоятельное приложения для сканирования документов. Это графический интерфейс, который объединяет отдельные самостоятельные программы, что осуществляют или сканирование, или распознавание текста, или другие функции обработки электронных документов. Поэтому, чтобы GScan2Pdf не разочаровал как «неполноценный Fine Reader», нужно учитывать особенности этих внешних программ. Со своей стороны GScan2Pdf предоставляет только интерфейс для склейки сканов и текстовых слоёв в многостраничные документы форматов PDF, DJVU и других. А, например, экспорт в тестовые редактируемые форматы DOC, ODT не осуществляется совсем. Поэтому GScan2Pdf — это частичный аналог Fine Reader.

Рис. GScan2Pdf
Рис. GScan2Pdf

Для распознавания символов GScan2Pdf может подключать различные движки распознавания текста. По умолчанию используется распознавалка Tesseract. В этой распознавалке имеется и поддержка распознавания русского и белорусского языка. Только не всегда эта поддержка кириллицы установливается по умолчанию и модули Tesseract для этого нужно установить самостоятельно при помощи менеджера приложений. (Это расширения tesseract-ocr-bel и tesseract-ocr-rus.)

Можно использовать и систему Cuneiform, которая, что немаловажно, распознаёт кириллицу, так как является российской разработкой. Разве что следует помнить, что Cuneiform — чистый движок распознавания текста и не имеет предварительного модуля подготовки изображения к распознаванию символов. Эту подготовку нужно производить самостоятельно.

В GScan2Pdf присутствуют некоторый минимальный набор инструментов для первоначальной обработки изображений. Но этого будет, скорее всего, недостаточно, чтобы подготовить к распознаванию картинку документа с текстом, сделанной не сканером, а фотокамерой. В общем, редактор Gimp тоже желательно иметь под рукой при работе с GScan2Pdf.

GScan2Pdf работает со сканерами, используя подсистему SANE. То есть работа поддерживается только со SANE-совместимым сканерами.

Другими словами, на самом деле можно в принципе обойтись и без GScan2Pdf, используя для создания цифровых копий бумажных документов программы по отдельности: Xsane, GIMP, Tesseract, Cuneiform, Scan Tailor и другие самостоятельные инструменты. Но в GScan2Pdf эта вся работа будет более комфортна. Все нужные операции по созданию многостраничных электронных документов можно выполнять не выходя из окна приложения, где панель миниатюр отсканированных страниц и специальная вкладка для создания и коррекции текстового слоя к файлам PDF и Djvu.

Ⓜ ⬇ 13-02-2014