Привет Хабр! Мы продолжаем публиковать материалы о технологиях оптического распознавания (OCR, ICR) и понимании документов, разработанных специалистами Cognitive Technologies. Сегодня мы говорим о технологиях Cognitive PDF/A для оцифровки текстовых документов.
В бизнесе часто возникает необходимость сканирования бумажных документов с целью последующей отправки по электронной почте или на архивное хранение.
При качественном сканировании полученные изображения зачастую имеют довольно большой размер.
Например, документ формата А4, отсканированный в цвете с разрешением 300 точек на дюйм, имеет размер около 25 МБ.
Использование файлов столь больших размеров в электронных архивах неэффективно, поэтому все больший интерес вызывают технологии сжатия получаемых электронных изображений.
Классические технологии сжатия изображений (JPEG, RLE, Deflate и др.
) неприменимы, поскольку в целом документы могут содержать как монохромный текст, так и полноцветные графические области.
Алгоритмы сжатия изображений без потерь, эффективные для монохромных текстов, малоэффективны для полноцветной графики, тогда как сжатие с потерями показывает высокую производительность для цветных изображений, но сильно искажает текстовую информацию (рис.
1).
Поэтому для сжатия изображений такого типа обычно применяется комбинированный подход.
Структурное сжатие изображений документов
Представим идею структурного сжатия на примере изображения страницы журнала (рис.2).
Классическая страница журнала может содержать фоновое изображение, один или несколько текстовых блоков, графические элементы (фотографии, схемы, таблицы и т. д.) и некоторые примечания.
Основная идея такого рода структурного сжатия изображений состоит в том, чтобы выделить структурные блоки, объединить эти блоки в слои (т.е.
«наслоить» изображение на текстовые, графические и другие слои) и сжать каждый слой наиболее подходящим способом.
Таким образом, изображение страницы журнала на рис.
2 разбито на четыре слоя: фон, черная текстовая область, синяя текстовая область и область фотографии.
Для сохранения максимального качества текстовые слои следует сжимать с использованием алгоритмов сжатия без потерь (например, CCITT Group 4), а для фотографии вполне допустимо использовать методы сжатия с потерями (JPEG).
Основное место в алгоритмах структурного сжатия отводится методам расслоения исходного изображения на текстовый и графический слои.
Этот подход приобрел высокую популярность сравнительно недавно.
Одним из примеров, реализующих идею структурного сжатия, по праву можно считать формат DjVu. Для сжатия цветных изображений DjVu использует специальную технологию, которая делит исходное изображение на три слоя: передний план, фон и черно-белую (однобитовую) маску.
Маска сохраняется с разрешением исходного файла; Именно в нем содержится изображение текста и другие четкие детали.
Разрешение фона, при котором сохраняются иллюстрации и текстура страницы, уменьшается для экономии места.
Передний план содержит цветовую информацию о деталях, не включенных в фон; его разрешение снижается еще больше.
Затем фон и передний план сжимаются с помощью вейвлет-преобразования (алгоритм IW44), а маска сжимается с помощью алгоритма JB2.
Несмотря на высокие степени сжатия изображений документов, у DjVu есть существенный недостаток: на сегодняшний день формат не стандартизирован, что затрудняет его использование в качестве инструмента создания электронных архивов.
Кроме того, использование одной и той же схемы слоев для всех типов документов не всегда оправдано и даже иногда может привести к существенному искажению документа.
Дополнительно стоит отметить, что в формате полностью отсутствуют какие-либо средства обеспечения безопасности и конфиденциальности документов.
Когнитивная технология PDF/A
Опишем технологию Cognitive PDF/A, предназначенную для преобразования бумажных документов в электронный вид, и процесс оцифровки в соответствии с предлагаемой технологией (рис.3).
Первый этап обработки — наслоение исходного изображения.
В результате появляются два новых изображения.
Первый содержит области исходного изображения, соответствующие текстовой информации (текстовый слой), а второй содержит графические элементы (графический слой).
В соответствии с архитектурой алгоритма текстовый слой не должен содержать никаких ненужных областей, кроме текстовых блоков.
Следовательно, изображение текстового слоя можно легко распознать без какой-либо предварительной подготовки с использованием внешних систем оптического распознавания символов.
Последний шаг — упаковать полученные слои и распознанный текст в PDF/A. Графический и текстовый слои подвергаются соответствующему сжатию, а распознанный текст упаковывается таким образом, чтобы обеспечить максимальное удобство поиска и копирования информации в документе.
Таким образом, технология Cognitive PDF/A состоит из трех основных частей: послойное наложение исходного изображения, распознавание текстового слоя с помощью системы оптического распознавания символов и компактная упаковка полученных слоев и распознанного текста в файл PDF/A. Давайте рассмотрим эти части более подробно.
Алгоритм наслоения
Разные типы документов имеют разные особенности.Например, финансовые документы характеризуются наличием печатей, подписей и штампов, журнальные статьи могут иметь сложный многоцветный фон, а книги часто включают полноцветные графические элементы.
Таким образом, технология Cognitive PDF/A предоставляет уникальные схемы слоев для каждого типа документа.
Выбор лучшей схемы может осуществляться с использованием алгоритмов предварительного определения типа документа.
Далее в качестве примеров будут рассмотрены схемы слоев для двух важных типов документов: страницы книги и офисного документа.
Обычно страница книги содержит черный текст на белом фоне и, возможно, графические элементы: рисунки, схемы, графики и т.п.
(рис.
4).
Обычно в книгах области текста и графики не пересекаются.
Еще одна ключевая особенность макета книги — использование шрифтов схожих линейных размеров.
На основании этих характерных особенностей построим послойную схему изображения книжной страницы.
Шаг 1. Бинаризируем исходное изображение, тем самым преобразуя его в монохромное изображение (рис.
5а).
Поскольку изображение в основном содержало черный текст на белом фоне, процесс бинаризации не должен сильно влиять на области, содержащие текстовую информацию.
Шаг 2. С помощью морфологической фильтрации «объединим» слова в единые связные компоненты.
Обозначим через ш И час характерная ширина и высота символов соответственно.
Отметим также, что расстояние между буквами в слове сравнимо с толщиной штриха иероглифа, а расстояние между словами близко к ширине иероглифа.
Поэтому мы «склеиваем» каждое слово в отдельный компонент связности, открывая его окном (рис.
5б).
Шаг 3. Построить гистограмму высот полученных компонент связности (рис.
6).
Поскольку весь текст на странице напечатан шрифтом примерно одного размера, соответствующие словам компоненты связности образуют на гистограмме один или несколько четко выраженных максимумов.
Следовательно, анализируя гистограмму, можно вычислить характерный размер шрифта.
час шрифт , с помощью которого набирается текст на странице, и, соответственно, выделить область на изображении, соответствующую текстовой информации (области, соответствующие соединяемым компонентам высотой порядка час шрифт ).
Зная область, где будет располагаться текст в исходном месте, построим маску слоя, а затем применим ее для получения графического и текстового слоев (рис.
7).
Поскольку для выделения текстовых блоков используются алгоритмы быстрой морфологической фильтрации с прямоугольным окном, очень важно, чтобы текстовые блоки были выровнены по осям изображения.
Поэтому «сглаживание» изображения выполняется до морфологии.
Цветным изображениям финансовых документов (счетов-фактур, квитанций, договоров и т.п.
) не присущи вышеперечисленные особенности изображения книжной страницы, поскольку графические элементы (штампы, подписи, рукописные записи) часто накладываются на текстовые блоки (рис.
8).
Поэтому использовать приведенный выше алгоритм для наслоения неразумно.
Построим схему наслоения, исходя из цветовых характеристик изображения.
Насыщенность цвета черного текста и белого фона близка к нулю, тогда как для синих штампов и подписей это значение велико.
Учитывая это свойство, построим следующую схему расслоения.
Шаг 1. Построим гистограмму насыщенности цвета (рис.
9), т.е.
привыкания y=logN Икс , Где Н Икс – количество пикселей изображения, насыщенность которых равна Икс .
Шаг 2. Обратите внимание, что на гистограмме четко выделяются два класса: первый образуют пиксели с низкими значениями насыщенности цвета, второй — с высокими значениями.
Пиксели первого класса составляют области изображения, соответствующие фону и черному тексту, второго — графическую часть изображения.
Найдем порог разделения двух классов т* Метод Оцу.
Шаг 3. Наложите исходное изображение следующим образом: пиксель похожего изображения.
(х,у) принадлежит текстовому слою (рис.
10а), если значение его цветовой насыщенности меньше порогового с(х,у) ; иначе - пиксель (х,у) принадлежит графическому слою (рис.
10б).
Распознавание текстового слоя
В результате расслоения мы уже получили изображения слоев текста, которые легко распознаются без предварительной подготовки с помощью внешних систем оптического распознавания символов.
Программная реализация технологии Cognitive PDF/A использует в качестве модуля OCR систему оптического распознавания текста с открытым исходным кодом OCR CuneiForm.
Сжатие и упаковка в формат PDF/A.
Полученные текстовые и графические слои, а также распознанный текст сохраняются в формате PDF/A. Этот формат представляет собой стандарт ISO 19005-1:2005, основанный на описании стандарта PDF версии 1.4 от Adobe Systems Inc. и разработан специально для долговременного архивного хранения электронных документов.Хотя PDF/A является подмножеством формата PDF, существует ряд отличий, обусловленных требованиями к PDF/A как к формату долговременного хранения электронных документов.
Так, например, для PDF/A требуется следующее: Реализация всех используемых шрифтов, включая шрифты из списка «стандартных для PDF».
Если файл PDF/A содержит изображения, то обязательно необходимо реализовать цветовой профиль — файл, содержащий информацию о том, как устройство вывода (монитор, принтер и т. д.) должно отображать цвет. Важно, чтобы включенный цветовой профиль не зависел от оборудования.
Обязательно наличие метаданных с указанием версии используемого формата, названия документа, списка авторов, краткого описания, даты создания и последней модификации файла документа, а также ключевых слов для поиска.
Спецификация PDF/A также определяет формат представления метаданных — Adobe Extensible Metadata Platform (XMP).
Для увеличения степени сжатия графические и текстовые слои сжимаются разными способами.
Из-за специфики контента графический слой уменьшен до разрешения 100 DPI и закодирован алгоритмом JPEG. Текстовый слой содержит основную информацию документа, поэтому текстовый слой сохраняется в исходном разрешении, а для кодирования используется алгоритм сжатия без потерь CCITT Group 4.
ЭРезультаты эксперимента
Оценить эффективность технологии в автоматическом режиме кажется практически невозможным — ведь недостаточно сравнивать только величину качества продукции; также необходимо сравнить качество полученного «компактного электронного документа».Поэтому фактически оценка производится органолептически (то есть «на глаз»).
На рис.
11 показаны некоторые тестовые изображения, сжатые с использованием алгоритмов JPEG (уровень сжатия, при котором сохраняется читаемость), DjVu и Cognitive PDF/A. Результаты сравнения показывают (см.
таблицу), что технология Cognitive PDF/A на порядок опережает JPEG по степени сжатия, но проигрывает DjVu. Такую разницу в размерах можно объяснить тем, что файл PDF/A помимо полезной информации (собственных изображений и распознанного текста) содержит еще и вспомогательные данные, необходимые для длительного хранения.
Несмотря на меньший размер файлов DjVu, качество сжатия офисных документов ниже, что особенно заметно в области печатей и подписей.
Изображение и результаты, представленные в этой таблице, можно загрузить по адресу: yadi.sk/d/7us8gghADHVrg
Полный текст статьи опубликован:
Усилин С.
А.
, Николаев Д.
П.
, Постников В.
В.
Когнитивный PDF/A – технология оцифровки текстовых документов для публикации в сети Интернет и долговременного архивного хранения // Труды Института системного анализа РАН.
Технологии программирования и хранения данных / под ред. Арлазаров В.
Л.
, Емельянов Н.
Е.
М.
: ЛЕНАНД, 2009. Т.
45. С.
159–173.
Рекомендуем к прочтению
Ватолин Д., Ратушняк А.
, Смирнов М.
, Юкин В.
Методы сжатия данных.
Алгоритмы сжатия изображений.
– М.
: Диалог-МИФИ, 2002. – 99 с.
Гонсалес Р.
, Вудс Р.
Цифровая обработка изображений.
– М.
: Техносфера, 2005. – 1072 с.
Справочник Lizardtech DjVu, www.lizardtech.com Куроптьев А.
В.
, Николаев Д.
П.
, Постников В.
В.
, Усилин С.
А.
Идентификация графических примитивов и текстовых блоков в изображениях документов с помощью морфологических операций // Материалы 51-й научной конференции МФТИ.
Современные проблемы фундаментальных и прикладных наук.
Часть 9. Инновации и высокие технологии.
– М.
: МФТИ, 2008. – С.
29 – 31. М.
ван Херк.
Быстрый алгоритм локальных минимальных и максимальных фильтров на прямоугольных и восьмиугольных ядрах // Письма распознавания образов.
– 1992. – С.
517 – 521. ИСО 19005-1:2005. Управление документами.
Формат файла электронного документа для долгосрочного хранения.
Часть 1. Использование PDF 1.4 (PDF/A-1).
Adobe Systems Incorporated. Спецификация расширяемой платформы метаданных (XMP), www.adobe.com Теги: #Алгоритмы #Сжатие данных #оцифровка #распознавание текста #архивирование #Алгоритмы
-
Увеличьте Доход Своего Сайта, Не Тратя Денег
19 Oct, 24 -
Операционная Система
19 Oct, 24 -
Benq Меняет Бренд На Qisda
19 Oct, 24