Софт-Портал

Ocr это

Рейтинг: 4.8/5.0 (26 проголосовавших)

Категория: Windows

Описание

Системы оптического распознавания текста – Информационные системы в экономике – Рефераты, презентации, курсовые, лекции скачать бесплатно

Системы оптического распознавания текста

Полезная статья? Пожалуйста, поставьте "+"

Оптическое распознавание текста (optical character recognition, OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.

Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты.

Текущее состояние технологии оптического распознавания текста

Точное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99 %[1], абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, а также печатных текстов других форматов (особенно с очень большим числом символов) в настоящее время являются предметом активных исследований.

Точность работы методов может быть измерена несколькими способами и поэтому может сильно варьироваться. К примеру, если встречается специализированное слово, не используемое для соответствующего программного обеспечения, при поиске несуществующих слов, ошибка может увеличиться.

Распознавание символов он-лайн иногда путают с оптическим распознавания символов. Последний — это офф-лайн метод, работающий со статической формой представления текста, в то время как он-лайн распознавание символов учитывает движения во время письма. Например, в он-лайн распознавании, использующем PenPoint OS или планшетный ПК, можно определить, с какой стороны пишется строка: справа налево или слева направо.

Он-лайн системы для распознавания рукописного текста «на лету» в последнее время стали широко известны в качестве коммерческих продуктов. Алгоритмы таких устройств используют тот факт, что порядок, скорость и направление отдельных участков линий ввода известны. Кроме того, пользователь научится использовать только конкретные формы письма. Эти методы не могут быть использованы в программном обеспечении, которое использует сканированные бумажные документы, поэтому проблема распознавания рукописного «печатного» текста по-прежнему остается открытой. На изображениях с рукописным «печатным» текстом без артефактов может быть достигнута точность в 80 % — 90 %, но с такой точностью изображение будет преобразовано с десятками ошибок на странице. Такая технология может быть полезна лишь в очень ограниченном числе приложений.

Ещё одной широко исследуемой проблемой является распознавание рукописного текста. На данный момент достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации. Например, в процессе распознания искать целые слова в словаре легче, чем пытаться проанализировать отдельные символы из текста. Знание грамматики языка может также помочь определить, является ли слово глаголом или существительным. Формы отдельных рукописных символов иногда могут не содержать достаточно информации, чтобы точно (более 98 %) распознать весь рукописный текст.

Для решения более сложных проблем в сфере распознавания используются как правило интеллектуальные системы распознавания, такие как искусственные нейронные сети.

Ocr это:

  • скачать
  • скачать
  • Другие статьи, обзоры программ, новости

    Презентация к уроку по информатике и икт (9 класс) по теме: Презентация к уроку в 9 классе - quot; Системы оптического распознавания документов - quot

    Презентация к уроку по информатике и икт (9 класс) по теме:
    Презентация к уроку в 9 классе "Системы оптического распознавания документов"
    Подписи к слайдам:

    Слайд 1
    Системы оптического распознавания документов

    Слайд 2
    Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

    Слайд 3
    Оптическое распознавание символов Оптическое распознавание символов (англ. optical character recognition. OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. С помощью сканера несложно получить изображение страницы текста в графическом файле.

    Слайд 4
    Однако для получения документа в формате текстового файла необходимо провести распознавание текста. т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

    Слайд 5
    Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

    Слайд 6
    Хорошее качество текста Растровый метод распознавания текста Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном.

    Слайд 7
    Хорошее качество текста Растровый метод распознавания текста Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.

    Слайд 8
    Хорошее качество текста Растровый метод распознавания текста Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого в наибольшей степени совпадает с изображением Например, распознаваемый символ "Б" накладывается на растровые шаблоны символов (А, Б, В и т. д.)

    Слайд 9
    Плохое качество текста Структурный метод распознавания При распознавании документов с низким качеством печати (машинописный текст, факс и т.д.) используется метод распознавания структурных элементов (отрезков, колец, дуг и др.) символов. В искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. Любой символ можно описать через набор параметров, определяющих взаимное расположение eгo элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине улов, которые составляет третий отрезок с двумя другими.

    Слайд 10
    Плохое качество текста Структурный метод распознавания При pacпознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего coответствуют распознаваемому символу. Например, распознаваемый символ "Б" накладывается на векторные шаблоны символов (А, Б, В и т. д.)

    Слайд 11
    Системы оптического распознавания форм При проведении Единого государственного экзамена. при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукописные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.

    Слайд 12
    Бланком называется стандартный лист бумаги, на котором размещается постоянная информация и отведено место для переменной. Сложность состоит в том, что необходимо распознать написанные от руки символы, довольно сильно различающиеся у разных людей. Кроме того система должна определить, к какому полю относится распознаваемый текст. FineReader Forms Системы оптического распознавания форм

    Слайд 13
    Для обработки бланков предназначено специальное приложение FineReader Forms. Для распознавания содержимого бланка необходимо предварительно создать шаблон формы. Сервис / Шаблоны Шаблон используют на этапе сегментации. Сегментация в данном случае состоит в наложении шаблона. Положение шаблона корректируется в соответствии с тем, насколько ровно был размещён бланк при сканировании. Заключительный этап состоит в распознавании содержимого бланка. Системы оптического распознавания форм

    Слайд 14
    Системы распознавания рукописного текста С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

    Слайд 15
    Системы распознавания рукописного текста

    Слайд 16
    Программы оптического распознавания текста

    Слайд 17
    Программы оптического распознавания документов Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является ABBYY FineReader. Бумажный носитель помещается под крышку сканера В программе отдаётся команда Сканировать и распознать Распознанный текст переносится в окно текстового редактора Работа с программой распознавания текста Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Отсканированные документы Фотографии текстов Оптическое распознавание документов

    Слайд 18
    Принцип работы сканера состоит в следующем: в результате преобразования света получается электрический сигнал, содержащий информацию об активности цвета в исходной точке сканируемого изображения. После оцифровки аналогового сигнала в АЦП цифровой сигнал через аппаратный интерфейс сканера идет в компьютер, где его получает и анализирует программа для работы со сканером. После окончания одного такого цикла (освещение оригинала — получение сигнала — преобразование сигнала — получение его программой) источник света и приемник светового отражения перемещается относительно оригинала. Принцип работы сканера

    Слайд 20
    Программы распознавания текста Преобразованием графического изображения в текст занимаются специальные программы распознавания текста ( Optical Character Recognition - OCR). Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами, но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.

    Слайд 21
    OCR CUNEIFORM Это бесплатная программа сканирования и распознавания текста российского разработчика Cognitive Technologies. OCR CuneiForm обеспечивает быстрое, удобное и качественное распознавание текста с сохранением исходного вида документа. Поддерживается распознавание с более 20 языков, среди них русский, украинский, английский, немецкий, французский, испанский, итальянский, португальский, шведский, финский, сербский, хорватский, польский, а также распознавание смешанного русско-английского текста.

    Слайд 22
    ABBYY Fine R eader Популярная проприетарная программа распознавания текста компании ABBYY Программа производит распознавание текста с более 180 языков. для 38 из них предусмотрена встроенная проверка орфографии. Начиная с версии Professional. распознаются иврит, японский, тайский, китайский языки. Finereader открывает файлы графических форматов (TIFF, JPG, PFD, PNG и др.) в том числе DjVu – компактный формат для хранения отсканированных документов, книг.

    Слайд 23
    Окно программы FineReader

    Слайд 24
    Процесс обработки FineReader Сканирование (сканер, цифровой фотоаппарат, цифровая видеокамера). Сегментация - выделение блоков на изображении. Распознавание – неоднозначно опознанные символы выделяются цветом. Проверка ошибок - можно провести проверку грамматики. Сохранение результатов в виде отформатированного или неотформатированного документа, или прямой передачи в другое приложение - WORD. Excel в буфер обмена Windows.

    Слайд 25
    OmniPage Популярная программа распознавания текста российской компании ABBYY Программа отличается высокой скоростью и точностью распознавания. Распознаются более 120 языков с различными алфавитами: латинский, греческий алфавиты, кириллица, китайский, японский и корейский языки. Как и FineReader. OmniPage уверенно распознает документы, полученные с помощью цифровых камер с помощью технологии коррекции изображения "3D Correction ".

    Слайд 26
    OmniPage В программе присутствуют удобные инструменты обработки изображений, повышенное качество сканирования без повторного сканирования; функция преобразования бумажных форм в электронные документы, заполняемые на экране; механизм Google Desktop Search для поиска отсканированного файла (и других файлов) по содержащимся в нем словам. В комплекте с OmniPage Professional поставляется несколько полезных утилит. В частности, PDF Converter - позволяет преобразовывать файлы формата PDF в редактируемые форматы: doc. rtf. wpd. xls. Упрощенный вариант утилиты PDF Create. которая выполняет обратное преобразование: превращает практически любой текстовый или графический файл в формат PDF.

    Слайд 27
    Readiris Программа сканирования и распознавания текста компании I.R.I.S. Поддерживается распознавание текста с более 120 языков распознавания, включая русский, а также ближневосточные языки - арабский, иврит, фарси (в версии Middle-East ) и японский, китайский, корейский (в версии Asian ). Есть версия Readiris для Macintosh. Вместе с поддержкой распознавания популярных форматов картинок, распознаются файлы PDF и DjVu.

    Слайд 28
    Readiris Содержит региональные пакеты для распознавания азиатских языков и языков среднего востока.

    Слайд 29
    Kirtas Technologies Arabic OCR Может распознавать арабские и английские символы на одной странице.

    Слайд 30
    Zonal OCR Помогает автоматизировать извлечение данных из компьютерных изображений.

    Слайд 31
    Brainware Извлечение данных из документов и их обработка — например, счета, извещения, накладные и платёжки

    Слайд 32
    Microsoft Office Document Imaging Программа распознавания текста компании Microsoft Программа Document Imaging способна работать только с двумя языками: английским и языком локализации самого MS Office. Для поддержки других языков необходимо дополнительно устанавливать пакет Multilingual User Interface (MUI). OCR настроек в программе практически нет, программа в автоматическом режиме поддерживает распознавание типа и размера шрифтов, картинок и простых таблиц.

    Слайд 33
    Существует также системы On-line распознавания текста: Online OCR и ABBYY FineReader Online ( http://www.onlineocr.ru. http://finereader.abbyyonline.com. http://www.liveocr.com/ )

    Слайд 34
    Подведение итогов урока В чем состоят различия в технологии распознавания текста при использовании растрового и векторного методов? Для чего предназначены программы оптического распознавания документов?

    Слайд 35
    Домашнее задание: П. 2.8 стр. 71-73

    Технология автоматического распознавания образов OCR -системы»

    Лабораторная работа №1
    «Технология автоматического распознавания образов.OCR-системы»

    1. Цель работы

    Изучить возможности современных OCR -систем и приобрести навыки работы с ними при выполнении автоматического распознавания текста.

    2. Подготовка к работе

    Изучить основные понятия и принципы технологии автоматического распознавания образов и, в частности, автоматического распознавания (чтения) текста [1,2].

    Ознакомиться с материалами по OCR -системам на web -сайтах производителей подобных систем (например, ABBYY и Cognitive Technologies ).

    Перед выполнением лабораторной работы необходимо установить соответствующее программное обеспечение:

    Ознакомительную версию ABBYY FineReader можно загрузить, перейдя по указанной ссылке – ABBYY FineReader11PE или запустить файл ABBYY_FineReader_11_PE_TrialWithoutArabic.exe
    в папке «8 - Дополнительные материалы» для установки программного обеспечения.

    Системные требования ABBYY FineReader 11:

    Процессор с тактовой частотой 1ГГц или выше.

    Операционная система: Microsoft Windows 7, Microsoft Windows Vista, Microsoft Windows Server 2008 R 2, Microsoft Windows Server 2003, Microsoft Windows XP.

    Объем оперативной памяти: не менее 1024 МБ, дополнительно для каждого ядра процессора 512 МБ.

    Свободное место на диске: 700 МБ для обычной установки и 700 МБ для работы программы.

    TWAIN - или WIA -совместимый сканер, цифровой фотоаппарат/фотокамера мобильного устройства или факс-модем.

    Видеоплата и монитор с разрешением не менее 1024?768 точек.

    Клавиатура, мышь или другое указательное устройство.

    Для конвертирования PDF в форматы документов Microsoft Word, Excel, PowerPoint и Visio соответствующие приложения MS Office должны быть установлены на компьютере.

    Загрузить OCR -систему с открытым кодом CuneiForm можно по следующей ссылке – CognitiveOpenOCRCuneiForm или запустить файл setup_openocr_cuneiform_rus.exe в папке «8 - Дополнительные материалы» для установки программного обеспечения.

    3. Лабораторное задание

    Исследовать возможности и особенности OCR -систем (например, ABBYY FineReader , CuneiForm и др.) для выполнения распознавания изображения с текстом и преобразования его в документ MS Word, pdf и др.

    Выполнить распознавание подготовленных трех изображений с помощью OCR -систем и результаты конвертировать в один из выбранных форматов (MSWord, pdf и др.) и сохранить в результирующий файл.

    Сравнить полученные результаты и сделать соответствующие выводы по распознаванию изображений различного разрешения средствами OCR .

    Для распознавания изображения текста низкого качества использовать возможность обучения по шаблону OCR -системы ABBYY FineReader. Результаты распознавания по шаблону конвертировать и сохранить в результирующий файл.

    Подготовить отчет для защиты лабораторной работы №1.

    Наличие трех файлов с растровым изображением текста различного разрешения (низкого. 300 dpi).

    Для выполнения автоматического распознавания текста необходимо воспользоваться двумя разными OCR -системами или различными версиями одной OCR -системы.

    Исходные изображения, результирующие файлы с информацией о корректно распознанных и сомнительных символах (относительная величина ошибки в %) и выводы по работе с OCR -системами включить в отчет по лабораторной работе №1.

    5. Методические указания

    Лабораторная работа выполняется с помощью OCR -систем (например, ABBYYFineReader и CuneiForm ). Подробное руководство пользователя по системеABBYY FineReader11 расположено в папке
    «8 - Дополнительные материалы» (файл – FR11_Guide_Russian.pdf ).

    Для загрузки и распознавания подготовленных изображений используются стандартные инструменты и соответствующие пункты главного меню (рис. 1 и рис. 2).

    Рис. 1. Главное окно программы ABBYY FineReader

    Рис. 2. Главное окно программы CuneiForm

    Процедура распознавания с обучением в ABBYY FineReader предполагает предварительное создание и обучение эталона.

    Рассмотрим эту процедуру по шагам:

    Необходимо открыть диалог Опции (меню Сервис>Опции… ) на закладке Распознать .

    В группе Обучение установить переключатель в положение Распознавание с обучением .

    Нажать кнопку Эталоны…

    В открывшемся диалоге Редактор эталонов нажать кнопку Новый…

    В появившемся диалоге Создать эталон ввести имя нового эталона и нажать ОК .

    Нажать кнопку Закрыть в диалоге Редактор эталонов. а затем кнопку ОК в диалоге Опции .

    В окне Изображение нажать кнопку Распознать. Если в процессе распознавания встретится неизвестный символ, откроется диалог Ручное обучение эталона с изображением этого символа (рис. 3).

    Необходимо обучить эталон символам или лигатурам. Лигатуры – это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинации символов. Обучение лигатурам происходит аналогично обучению отдельным символам.

    Рис. 3. Диалог Ручное обучение эталона

    В процессе обучения можно вернуться к редактированию предыдущего символа нажатием кнопки Вернуться , которая действует в пределах одного слова. В этом случае последняя обученная пара «изображение – символ» будет удалена из эталона.

    Отметим, что обучение возможно только для символов, входящих в алфавит языка. Если требуется обучить программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинации из двух символов, или можно скопировать требуемый символ из диалога Вставка символа .

    В одном эталоне может содержаться до 1000 новых символов. Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт, размер и отсканированных с тем же разрешением, что и исходный документ, на котором данный эталон обучался. Сохранить созданный эталон для работы с другими документами ABBYY FineReader можно сохранив настройки документа ABBYY FineReader в файл набора опций (*.fbt ). В дальнейшем этот пользовательский эталон может быть отредактирован через диалог Редактор эталонов. а при необходимости отключен.

    Для отключения пользовательского эталона достаточно на закладке Распознать диалога Опции (меню Сервис>Опции… ) установить переключатель в положение Не использовать пользовательский эталон .

    Башмаков А.И. Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. –М. Изд-во МГТУ им. Н.Э. Баумана, 2005. – 304 с.

    Варшавский П.Р. Куриленко И.Е. Михайлов И.С. Программное обеспечение интеллектуальных систем: учебное пособие / – М. Издательский дом МЭИ, 2011. – 64 с.

    Области применения OCR -систем?

    На каких трех принципах базируются все OCR -системы?

    Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

    Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

    Автор: А. Кривошей
    Дата публикации: апрель 2011 года

    Одна из областей, в которых отставание Linux от Windows считается значительным и трудно преодолимым, является оптическое распознавание текста. Так как необходимость распознать текст время от времени появляется практически у каждого пользователя компьютера, потребность в программном обеспечении такого рода надо признать актуальной проблемой. В связи с этим недавно я решил потратить немного времени и провести сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы.

    Методика тестирования

    Для более объективной оценки возможностей пакетов оптического распознавания я подготовил три образца. Первый из них представляет собой страницу текста из книги "Война и мир". Данная страница из электронной книги в формате PDF была импортирована в GIMP с разрешением 300 dpi и сохранена в формате png. Таким образом, она представляет собой практически идеальный объект для распознавания и все программы должны с этим справиться без труда.
    Второй образец представляет собой ту же страницу, но импортированную уже с разрешением 200 dpi и сохраненную в формате jpg с уровнем качества 60%. Любопытно посмотреть, как это скажется на качестве распознавания.
    Для третьего образца та же самая страница была импортирована с разрешением уже 150 dpi. После импортирования на рисунок в GIMP был наложен фильтр "Фотокопия", имитирующий копировальную машину, что еще больше усложняет распознавание.
    Что касается полученных результатов, они приведены в таблице. Показателем точности распознавания является отношение количества правильно распознанных слов к общему количеству слов в документе, выраженное в процентах и определяемое с помощью утилиты dwdiff.
    Желающие могут скачать образцы и проверить результаты самостоятельно:
    Образец 1. Образец 2. Образец 3 .
    Само собой, автор не претендует на какую-либо стопроцентную достоверность полученных результатов. При использовании других образцов результаты могут значительно измениться.
    А теперь рассмотрим наших кандидатов.

    ABBYY FineReader for Linux

    Не секрет, что уже в течение многих лет единоличным лидером на рынке оптического распознавания является российская компания ABBYY со своим продуктом Fine Reader. В настоящее время компания предлагает пакет ABBYY FineReader Engine 8.0 CLI for Linux, включающий утилиту командой строки для распознавания и SDK для встраивания движка распознавания в различные корпоративные системы документооборота и т.д. Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в год. Есть и более дорогие версии, в которых это количество значительно больше. Более подробную информацию можно получить на странице проекта. При такой стоимости покупать программу для домашнего использования возможно и не стоит, однако даже для небольшой компании она выглядит вполне приемлемо. Триальная версия позволяет распознать 100 страниц, ее мы и испытаем.
    Для начала необходимо скачать архив с программой весом 290 Мб. Для получения триального ключа необходимо заполнить несложную форму на этом же сайте. Мне через пару дней после ее заполнения пришел ответ с ключом. В архиве находится файл abbyyocr.run и инструкция по установке, которая в общем заключается в запуске вышеуказанного файла на выполнение от имени суперпользователя (все это делалось в Ubuntu 10.10):

    В процессе установки программа запросила ключ, после чего благополучно активировалась. Программа имеет множество ключей командной строки, позволяющих гибко настроить параметры распознавания. Я использовал команду вида:

    В целом здесь все понятно. Ключи -if и -of задают распознаваемый файл и файл, в который записывается результат работы программы. С помощью -f задается формат вывода. Необходимо отметить, что если в тексте имеются слова на иностранном языке, необходимо обязательно задать его вторым после ключа -rl. В противном случае программа будет пытаться распознать все на русском.

    ABBYY Fine Reader Online

    Для полноты картины необходимо рассмотреть еще один продукт от ABBYY - онлайновый сервис ABBYY Fine Reader Online. Ранее он позволял после несложной регистрации распознавать бесплатно до 10 страниц в день, теперь же бесплатно можно распознать только три страницы сразу после регистрации, после чего необходимо платить. Минимальный пакет стоит 3$ за 20 страниц. Сервис поддерживает большое количество языков и форматов файлов.

    Cuneiform

    На второе место по известности среди систем OCR можно смело поставить программу cuniform. Первоначально программа CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.
    По умолчанию в Ubuntu 10.10 доступна достаточно старая версия 0.7. Однако после добавления соответствующего PPA можно стать обладателем версии 1.0. Для Cuneiform написаны два графических интерфейса - YAGF и Cuneiform-Qt .
    Для тестирования я использовал версию 1.0.0, установленную из вышеуказанного PPA. Распознавание производилось с помощью команды вида:

    В руководстве cuneiform приводится опция --fax, которая включает оптимизацию работы программы для распознавания документов, переданных с помощью факса, однако при ее использовании результат получается хуже, поэтому я не привел его в таблице.

    GOCR

    GOCR - это свободная кроссплатформенная система оптического распознавания текстов, работающая из командной строки. Программа пока находится в ранней стадии разработки, поэтому имеет ряд серьезных недостатков (например, распознает только одноколоночный текст). Кроме того, изучение man-страницы показало, что опций, позволяющих задать язык распознавания, программа не имеет, что подтвердилось экспериментом - русский текст gocr пытается распознать как английский. Естественно, в таблицу я данную программу включать не стал.

    Ocrad

    Ocrad - это система оптического распознавания, разрабатываемая в рамках проекта GNU. Программа использует метод выделения характерных признаков (feature extraction). Она читает побитовое изображение в формате pgm/pbm и генерирует текст в байтовом (8-битном) формате. Ocrad содержит анализатор макета, способный отделять столбцы или блоки текста, часто встречающиеся в печатных страницах. К сожалению, поддержка русского языка также отсутствует напрочь. Поэтому из нашего сравнения программу исключаем.

    Tesseract

    Tesseract - свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х. Затем ее разработка была заморожена на 10 лет. В августе 2006 г Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей.
    Так как в репозиториях Ubuntu присутствует 2-я версия программы, а русский язык поддерживается только с релиза 3.0.0, программу я собирал из исходных текстов по инструкциям, найденным в сети.
    Итак, скачиваем здесь архив с исходными текстами (в моем случае это tesseract-3.00.tar.gz, но с выходом новых версий название может быть другим), распаковываем его и переходим в директорию с исходными кодами.
    Для корректной работы tesseract необходим пакет leptonica - ПО с открытым исходным кодом, необходимое для приложений, работающих и анализирующих изображения. Устанавливаем его:

    Кроме того, для работы tesseract необходимо установить следующие пакеты: libpng12-dev, libjpeg62-dev, libtiff4-dev, zlib1g-dev, libtool build-essential. Устанавливаем и их, а затем из директории с исходным кодом начинаем конфигурирование и сборку программы:

    При подтверждении опций необходимо изменить имя пакета (номер 2) на tesseract-ocr.

    Все остальные опции принимаем по умолчанию. В результате будет установлен tesseract 3.0, а также собран deb-пакет, поэтому в следующий раз программу можно будет устанавливать обычным способом с помощью GDebi.
    С первого раза программа у меня не собралась, пожаловавшись на отсутствие каталога /usr/local/share/tessdata. После того, как я создал его вручную, процесс завершился благополучно.
    Теперь необходимо скачать с сайта программы пакет поддержки русского языка (rus.traineddata.gz), распаковать его и скопировать содержимое архива (а это должен быть один файл rus.traineddata) в директорию /usr/local/share/tessdata/.
    Изображения перед распознаванием необходимо прнобразовать в формат tiff.
    Для распознавания я использовал команду вида:

    Если программа не заработала и возникают ошибки, связанные с отсутствием необходимых библиотек или правами доступа, выполните следующие команды:

    Теперь все должно работать.
    Для tesseract имеется графический интерфейс tesseract-gui. который тоже надо собирать из исходного кода. У меня он запустился, но распознавать текст почему-то не захотел. Еще есть система OCRopus. которая может использовать движок tesseract. Собственно поэтому я ее отдельно рассматривать не стал.

    SILVERCODERS OCR Server

    Данная программа представляет собой мощную коммерческую серверную систему распознавания, предназначенную для предприятий и поддерживающую 189 языков, среди них и русский. Она разработана специально для интегрирования в корпоративные системы документооборота. Триальной версии для свободного скачивания нет, поэтому опробовать мне эту систему не удалось.

    Free OCR

    Free OCR - бесплатный онлайн-сервис для оптического распознавания текста, использующий движок tesseract. Размер загружаемого изображения ограничен 2 Мб. Поддерживаются форматы JPG, GIF, TIFF BMP и PDF (только первая страница, в скором времени обещают поддержку первых 10 страниц). Также, существует лимит на 10 изображений в час.
    Сервис распознает множество языков - русский, украинский, английский, немецкий, французский, турецкий, большинство восточноевропейских языков.

    img2txt

    img2txt - многоязычный онлайн-сервис для оптического распознавания текста. Поддерживаются форматы JPG, PNG, TIFF с размером файла до 2 Мб. В будущем обещают поддержку PDF и DJVU. На Википедии сервис обозначен как коммерческий и проприетарный, однако на самом сайте никакой информации об типе лицензии и используемом движке нет. Мои три тестовые страницы распознались без проблем. Никакой оплаты или хотя бы регистрации не просили.

    OnlineOCR

    OnlineOCR - еще один онлайн-сервис, теперь уже коммерческий (28 языков, включая русский). Поддерживает ввод в форматах TIFF (multi-page), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multi-page), файлы до 20 мб; вывод в PDF, MS Word, MS Excel, HTML, RTF, TXT. Минимальный пакет, который можно купить, составляет 10 страниц за 5 рублей. Зарегистрированный пользователь имеет свой кабинет, в котором хранятся загруженные файлы и результаты распознавания. К сожалению, возможность бесплатной работы с сервисом настолько ограничена, что протестировать его не удалось. Причем попытка оплатить 10 страниц с помощью СМС также закончилась неудачно.

    NewOCR

    NewOCR - бесплатный OCR сервис, поддерживающий 29 языков распознавания, включая русский. Позволяет загружать файлы в форматах JPEG, PNG, GIF, BMP, многостраничный TIFF размером до 5 Мб, а также многостраничные PDF размером до 20 Мб. Поддерживается многоколоночное форматирование текста.

    Кроме того, необходимо отметить, что на рынке имеется еще одна коммерческая система распознавания от компании vividata. однако стоимость этой программы составляет $2400 (!) плюс по $100 за каждый дополнительный язык, отдельная плата, например, за модуль вывода в PDF ($1200) и т.д. поэтому я даже не стал заморачиваться с ее установкой. Ко всему прочему программа видимо очень давно не обновлялась (файлы в установочном архива датируются 2001 годом) и сами разработчики сомневаются в том, что она заработает на современных дистрибутивах. Поэтому тестировать vividata я не стал.
    Также я решил включить в таблицу Google Docs, так как эта служба в настоящее время также позволяет производить распознавание русского текста. По имеющимся данным она использует tessract, однако нельзя исключить, что в своем сервисе Google использует какие-нибудь дополнительные наработки, поэтому интересно сравнить ее с остальными.

    Результаты сравнительного тестирования систем оптического распознавания Выводы

    Результаты, приведенные в таблице, показывают, что при хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В то же время при распознавании некачественного материала ABBYY Fine Reader явно вырывается вперед, что неудивительно, учитывая ресурсы, задействованные в разработке данного приложения. Однако в целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.
    Для нерегулярного домашнего применения подойдет любая из представленных в обзоре бесплатных систем, а для организации, деятельность которой связана с частым использованием систем распознавания, особенно если дело касается факсов и другого материала посредственного качества, стоит подумать о покупке Fine Reader, тем более, что открытый API позволяет интегрировать его в любую корпоративную систему документооборота.

    Средняя оценка 5 при 1 голосовавших

    Вы сможете оценить статью и оставить комментарий, если войдете или зарегистрируетесь .
    Только зарегистрированные пользователи могут оценивать и комментировать статьи.

    Комментарии

    Виктор Милейковский пишет: 26.12.2011
    По Вашим рекомендациям поставил Tesseract. Отлично работает на Ubuntu 11.10 64-bit. Виктор Милейковский пишет: 26.12.2011
    ПРОСТИТЕ ЗА ОПЕЧАТКУ. Ubuntu 11.04 Виктор Милейковский пишет: 26.12.2011
    В стстье упоминается оболочка YAGF для Cuneiform. Эта оболочка теперь работает с двумя системами распознавания - CuneiForm и Tesseract. Приведенная в статье ссылка позволяет скачать версию 0.8.9. Обязательно наличие пакета cmake. Если нет, то ставим его,например, коммандой: sudo apt-get install cmake При инсталляции на Ubuntu и, возможно, на других дистрибутивах появится ошибка: "Could NOT find ASPELL". Устранение ошибки отсутствует на сайте производителя и в Гуугле. Я написал разработчикам, надеюсь, они исправят. Это сделать очень просто. Перед инсталляцией убеждаемся в том, что установлен пакет libaspell-dev. Для установки из репозиториев он не нужен, а для сборки обязателен. Для проверки удобен Synaptic, в поле поиска задем "aspell". В списке найдется нужный пакет и сразу большое число словарей aspell-<язык>, которые по умолчанию не установлены. У меня даже русский не установлен. Пометте для установки нужные словари. Без русского (aspell-ru) YAGF установится, но при запуске будет ругаться. Очень рекомендуется поставить xsane (при наличии сканера). А дальше все стандартно: 1. Скачиваем архив и распаковываем, например, в папку

    /Загрузка. Появится подпапка yagf-0.8.9 2. Создаем в папке

    /Загрузка еще одну папку

    /Загрузка/yagf-build 3. Из последней папки запускаем в терминале три комманды: первая: cmake. /yagf-0.8.9 вторая: make третья: sudo make install 4. Убеждаемся, что все в порядке. Запускаем программу или через терминал yagf или через меню. В Ubuntu Classic меню Программы -> Офис 5. Удаляем ненужную папку yagf-build. Инерфейс программы очень удобный. В меню Settings -> OCR Settings выбираем любимый движок. А далее кнопки на панели позволяют открыть файлы, отсканировать одну или много страниц, вставить из буфера обмена, распознать, сохранить текст, проверить орфографию, выбрать языки распознавания. Если не нравится результат распознавания, можно сменить движок. Pavel Su пишет: 17.04.2013
    Хороший обзор. Наглядно. Табличка показательная. Просьба: добавить к сравнению 2 плохо подготовленных документа: 1. цветное сканированное изображение с текстом (например, из журнала или даже фото документа на камеру мобильного устройства) 2. реальное монохромное отсканированное изображение (распечатано, отсканировано) - добавится существенный фактор - поворот текста - который, например, CuneiForm приводит в ступор:) Ведь многие пользователи систем распознавания текстов либо не умеют, либо не хотят тратить время и силы на подготовку текста к распознаванию. Зачастую, за время, требующееся на подготовку документа, его распознавание и правку, можно набрать тот же, а то и больший объем вручную:) (я проводил соревнование с женой - я сканировал страницу, поворачивал, регулировал, распознавал, переносил в текстовый редактор, правил, она за это время вс? набрала руками и уже пила чай:) В этом плане FineReader работает на неподготовленных документах пока лучше всех.