О Промышленных Системах Массового Ввода, Обработки Изображений И Оптического Распознавания Символов Emc Captiva Inputaccel И Kofax Capture

В реалиях российского законодательства из-за отсутствия правовых норм ведения дел в электронном виде (безбумажном) бухгалтерский учет должен создавать и хранить очень большое количество бумажных документов (первичных финансовых документов (счета-фактуры, счета-фактуры, счета-фактуры и т.п.

), журналов проводок и операций, кадровых документов и т. д. и т. п.

Для снижения затрат на обработку и хранение средние и крупные компании прибегают к использованию автоматизированных систем массового ввода и обработки.

На рынке широко известны и используются продукты следующих производителей программного обеспечения: EMC, Kofax, Abbyy, Cognitive Technologies. За прошедший год работы мне удалось с нуля понять многие секреты этой интересной области автоматизации бизнеса с помощью систем EMC Captiva и Kofax Capture, о них я и хочу рассказать в этой статье.

Оба производителя продают свою продукцию как «системы массового ввода», а не как системы оптического распознавания символов, и на это есть веская причина.

Все дело в том, что распознавание текста как таковое — лишь небольшая задача из всех, что могут выполнять эти системы.

Начнем с того, что Kofax и Captiva обрабатывают по одному и тому же принципу: шаг за шагом.

Одним этапом обработки является условно запуск одного отдельного .

exe, который выполняет определенные заданные действия.

Для создания так называемого «процесса» существуют специальные конструкторы, в которых вы указываете последовательность шагов и правила маршрутизации.

В общем случае обработка распознавания выглядит примерно так:

О промышленных системах массового ввода, обработки изображений и оптического распознавания символов EMC Captiva InputAccel и Kofax Capture

На рисунке видно, что происходит последовательная обработка документа: от его подготовки (разделение листов, удаление скрепок), затем захвата (сканирования), распознавания и индексирования (извлечения определенных частей текста), затем проверки пользователем (сразу частичной или частичной).

полная ручная индексация), формирование нового формата выходного документа (при необходимости) и экспорт из системы обработки.

Поскольку источником может быть не только сканер, но и файловая система, факс-системы, электронная почта, веб-сервисы и другие системы, то в обработке могут быть и другие этапы (улучшение изображения, поворот, сглаживание, преобразование), проверка индексированных значений.

может быть автоматическим, а экспорт может происходить как в файловую систему, в любую ERP, CRM и другие системы, с отправкой по электронной почте и другими способами, структуру обработки целесообразно представить в следующем виде:

О промышленных системах массового ввода, обработки изображений и оптического распознавания символов EMC Captiva InputAccel и Kofax Capture

Логически процессинговые системы выглядят как отдельные запущенные процессы, взаимодействующие с центральным сервером, отвечающим за маршрутизацию через заранее настроенный процесс:

О промышленных системах массового ввода, обработки изображений и оптического распознавания символов EMC Captiva InputAccel и Kofax Capture

Система построена по модульной архитектуре и состоит из следующих основных компонентов (на примере Kofax Capture):

База данных
Сервер Kofax Capture
Неуправляемые модули обработки
Клиентские модули

База данных состоит из самой реляционной базы данных и каталога в файловой системе, обычно расширенной по сети, в котором хранятся артефакты пошаговой обработки документов.

Сервер маршрутизирует документы по шагам и модулям.

Неуправляемые модули работают в фоновом режиме без участия пользователя, например модуль распознавания.

Клиентские модули, такие как «Сканирование» или «Индексирование», являются основным пользовательским интерфейсом системы.

Администрирование выполняется в модуле Batch Administration для Kofax или в административной консоли для Captiva. Для обеих систем есть масштабирование, как вертикальное, так и горизонтальное.

Сервисы могут быть запущены на одном компьютере или распределены по разным с целью повышения производительности, а также запускаться многократно (в рамках имеющихся лицензий), поэтому в данной схеме сервис Распознавания отделен от других сервисов, т.к.

требует наиболее Ресурсы.

Качество входного изображения может быть низким (минимальное стандартное требование 300dpi, 1 бит на пиксель – черно-белое), содержать артефакты, пятна, размытия и другие шумы, поэтому обычно используется предварительная обработка, которая позволяет существенно изменить качество изображения и улучшить его.

качество распознавания.

EMC использует компоненты PixTools, Kofax использует свою разработку VirtualReScan.

О промышленных системах массового ввода, обработки изображений и оптического распознавания символов EMC Captiva InputAccel и Kofax Capture

Исходное изображение до обработки

Изображение после обработки Важным этапом является Классификация (определение типа и формы заранее настроенного документа).

Документ можно идентифицировать либо по его графическому содержанию, либо по наличию ключевых слов, либо смешанным способом.

Также возможно сделать классификацию «в коде» — например, когда документ поступил через веб-сервис через учетную систему и его тип известен заранее.

Для распознавания текста могут использоваться разные движки распознавания, которые поставляются в базовом комплекте продуктов, но по большей части оба используют движок от Abbyy, поскольку он обеспечивает высокое качество распознавания русского печатного текста.

Рукописный ввод трудно распознать, поэтому обычно такие документы, если они существуют, не распознаются, и в них оператором индексируется ограниченное количество полей.

Важно отметить, что базовый пакет Captiva InputAccel, как и Kofax Capture, позволяет индексировать только строго формальные документы, например банковские формы, где поля для текста заранее размечены и при извлечении мы всегда будем достоверно знать где что искать.

Для обработки слабых и неструктурированных документов необходимо использовать дополнительные модули преобразования Captiva Dispatcher или Kofax. В этом случае происходит распознавание полностраничного текста и в большинстве случаев используется принцип поиска полей с помощью регулярных выражений в сочетании с положением «якорных» разделов (анкорные слова также можно обнаружить с помощью регулярных выражений или жестких шаблонов).

Эти же модули необходимы, если вы собираетесь обрабатывать табличную часть документов; это, кстати, худший сон разработчика, и по возможности мы стараемся отказываться от таблиц.

Сравнение компонентов системы

Эмс Каптива	Кофакс	Что он делает
Сервер ИнпутАксел		Серверный процесс, управляет жизненным циклом процесса (пакетный).
	KNS, не требуется, если весь процесс будет происходить на одной машине, не требует IIS	Сетевая работа
ИнпутАксель	Кофакс захват	Базовые процессы, способность распознавать только строго структурированные документы, т.е. строгие бланки, анкеты и т.п.
Диспетчер	КТМ	Настройка шаблонов распознавания для слабоструктурированных документов и нешаблонных текстов (все российские первичные финансовые данные)
Дизайнер свободных форм	Нет, встроен в КТМ	Конструктор для настройки сложных правил распознавания
Консоль администрирования, веб-приложение, требует IIS	Нет, такой необходимости нет, она встроена в Каптюр	Приложение для настройки сервера, управления процессами и пакетами, лицензирования и т.д.
Электронный ввод	КФС	Возможность работы через браузер

Лицензирование продуктов примерно одинаковое, все лицензии конкурирующие, то есть по количеству активных подключений.

Вы покупаете тот объём страниц в год, который собираетесь обрабатывать; эта лицензия может быть продлеваемой (счетчик сбрасывается раз в год) или невозобновляемой.

Также необходимо дополнительно приобрести лицензии на модули, например, Captiva поставляется только с одним местом для сканера, а все остальные необходимо приобретать отдельно.

В России наибольшее распространение получила система EMC Captiva; Kofax используется довольно редко.

Если вы заинтересованы в продолжении, могу подробно описать процесс разработки и настройки процессов и шаблонов распознавания на базе платформы EMC Captiva. Теги: #Captiva #Kofax #ocr #ERP-системы