В.
А.
Малых, Д.
Л.
Шоломов, В.
В.
Арлазаров
Чтобы добиться качественного распознавания критических полей на формах, необходимо использовать дополнительную информацию.
Часто для этого в формат распознаваемого поля специально вводят контрольную цифру или другую избыточную информацию.
В данной статье предлагается универсальный алгоритм «рулетки» распознавания полей с функцией проверки.
В статье также представлены результаты практической проверки предложенного алгоритма и, кроме того, дана общая классификация алгоритмов проверки.
Введение
В современных условиях задача распознавания стоит прежде всего перед так называемыми бизнес-формами.То есть документы коммерческого характера, прежде всего финансового.
Примером деловой формы является коносамент, который является одним из основных видов документов, используемых в торговле.
Бизнес-формы характеризуются несогласованностью информации, расположенной в разных полях формы.
Прежде всего, важными полями являются поля для сумм, номеров счетов и т. д. Примером критического поля может быть номер паспорта в форме, использующей паспортные данные.
Для повышения качества распознавания полей критической формы используются различные методы.
В частности, используются методы, вносящие в данные дополнительную избыточную информацию.
Известным примером такого метода из области теории информации являются коды Хэмминга [ 3 ].
Ряд методов в области распознавания текста был предложен в [ 1 ].
Применительно к задаче распознавания существует класс полей, который в самой своей структуре содержит дополнительную информацию, которую можно использовать для проверки правильности распознавания.
А также исправлять ошибки, если такая задача поставлена.
Использование дополнительной информации можно разделить на два типа: корректирующие и отвергающие проверки.
Проверка отклонения обычно использует заранее определенные значения для сопоставления (например, широко распространенная проверка по словарю).
В этом случае, если полученного при распознавании значения нет в словаре, мы принимаем решение о некорректности распознавания.
Корректирующая проверка отличается от проверки отклонения тем, что мы можем попытаться восстановить неправильно распознанное значение.
Для каждого символа существуют альтернативы распознавания.
Вы можете проверить значение, заменив один (или несколько) символов его альтернативой.
Этот метод, примененный к значению без контрольных данных, гораздо менее эффективен — так как мы фактически пытаемся угадать, что было распознано неправильно.
В связи с тем, что вероятность ошибки в первую очередь зависит от самого символа, сделать однозначный вывод о том, какой из символов был распознан неверно, исходя из общих соображений, невозможно.
С другой стороны, имея управляющую информацию, мы можем проверить корректность замены символа на его альтернативу.
Поскольку алгоритм контрольного значения выбран таким образом, чтобы одинаковые значения базовых данных соответствовали существенно отличающимся контрольным данным, и учитывая низкую вероятность ошибки, мы приходим к выводу, что он позволяет с высокой степенью восстановить исходные данные.
уверенности.
Такая дополнительная информация может быть выражена в любой форме, но наиболее распространенной являются так называемые контрольные суммы.
Математическая постановка задачи
Постановка задачи распознавания в наиболее общем виде приведена, например, в [ 4 ].В статье использована узкая постановка задачи из [ 5 ].
Задача распознавания с коррекцией сводится к перебору элементов вектора альтернатив.
для каждого персонажа
от слова
.
Для каждого набора
, Где
–
-й элемент вектора
, соответствующий
-й распознанный символ, который мы будем называть интерпретацией, преобразуется в линейную последовательность, которая подвергается соответствующей проверке.
Общее количество возможных интерпретаций определяется формулой
, Где
— количество символов в слове
.
Уже для 2 вариантов каждого символа слова длиной 15 символов эта формула дает 32768 вариантов интерпретации, что при достаточно сложной функции проверки
, может привести к длительным задержкам в распознавании.
Но, как показывает практический опыт, большинство слов распознаются при проверке одного варианта для каждого символа, т.е.
для слова с длиной символов необходимо рассмотреть всего около 15 вариантов распознавания.
Алгоритм регулировки
Предложен алгоритм отклонения и/или восстановления данных с эталонными значениями.В связи с тем, что вероятность ошибки в любом символе одинакова, алгоритм не различает контрольные и обычные биты.
Алгоритм последовательно меняет альтернативы, комбинируя их для всех символов до тех пор, пока комбинация альтернатив не будет удовлетворять используемому тесту.
За счет сложности алгоритма проверки контрольной цифры можно существенно снизить вероятность неправильного распознавания.
Принцип работы алгоритма сводится к последовательному поиску вариантов интерпретации слова.
и применяя к ним проверки
.
При описании алгоритма с использованием псевдокода используется слово
обозначен как RecognitionResult, а функция проверки
обозначен как Тест.
Roulette(Test, RecognitionResult)
Теги: #распознавание текста #контекст #настройка распознавания.
#Алгоритмы
-
Включение Ocr В Ваш Ehr
19 Dec, 24 -
С Днем Рождения, Гугл!
19 Dec, 24 -
Iphone — Нерассказанная История. Часть 2
19 Dec, 24