Всем привет! Я и моя команда представляем направление развития бизнеса с партнерами Росбанка.
Сегодня мы хотим рассказать об успешном опыте автоматизации банковского бизнес-процесса с использованием прямых интеграций между системами, искусственного интеллекта в части распознавания изображений и текста на базе GreenOCR, российского законодательства и подготовки выборок для обучения.
Итак, начнем.
В Росбанке есть бизнес-процесс открытия счета заемщику в лице банка-партнера.
Существующий процесс, соответствующий всем нормативным требованиям и требованиям группы Societe Generale, до автоматизации занимал до 20 минут времени транзакции на одного клиента.
Процесс включает в себя получение бэк-офисом сканов документов, проверку правильности заполнения каждого документа и размещения полей документа по информационным системам банка, ряд других проверок и только в самом конце – открытие счета.
Именно этот процесс и лежит в основе кнопки «Открыть счет».
Основные поля документа – фамилия, имя, отчество, дата рождения клиента и т.д. – содержатся практически во всех видах получаемых документов и дублируются при вводе в разные банковские системы.
Самый сложный документ — анкета KYC (от Know Your Customer — знай своего клиента) — представляет собой печатную форму формата А4, заполненную шрифтом размером 8 пунктов и содержащую около 170 текстовых полей и флажков, а также табличные представления.
Что нам оставалось делать?
Нашей главной целью было сократить время, необходимое для открытия счета, до минимума.Анализ процесса показал, что необходимо:
- Сократите количество ручных проверок каждого документа;
- Автоматизировать заполнение одних и тех же полей в разных банковских системах;
- Сократить перемещение сканов документов между системами;
Форматы документов, используемые в бизнес-процессе, не являются стандартными, поэтому перед командой стояла задача разработать требования к «движку распознавания» и подготовить примеры для обучения нейросети (сэмплы).
Для решения задач (2) и (3) необходимо было усовершенствовать системную и межсистемную интеграцию.
Наша команда под руководством Юлии Алексашиной
- Александр Башков - внутренняя разработка систем (.
Net)
- Валентина Сайфуллина - бизнес-анализ, тестирование
- Григорий Проскурин - интеграция между системами (.
Net)
- Екатерина Пантелеева - бизнес-анализ, тестирование
- Сергей Фролов - Управление проектами, анализ качества модели
- Участники от внешнего поставщика ( Умные двигатели вместе с Философия.
it
)
Обучение распознавателю
В комплект клиентских документов, используемых в бизнес-процессе, вошли:- Заграничный пасспорт;
- Согласие – распечатанная форма, формат А4, 1 л;
- Доверенность – распечатанная форма, формат А4, 2 л;
- Анкета KYC – печатная форма, формат А4, 1 л;
улучшения.
Распознавание паспортов вошло в готовый функционал системы GreenOCR и не потребовало каких-либо доработок.
Для остальных типов документов в результате анализа были определены необходимые атрибуты и характеристики, которые должен возвращать механизм распознавания.
При этом необходимо было учитывать следующие моменты, которые усложняли процесс распознавания и требовали заметного усложнения используемых алгоритмов:
- Каждый документ может содержать текстовые поля и статический текст, которые меняют свое положение в печатной форме при заполнении шаблона документа реальными данными.
Наиболее заметно это при распознавании многостраничного документа, когда поле может «переползать» с одной страницы на другую;
- Шрифт размером 8 пунктов очень чувствителен к разрешению сканирования документа.
При низких разрешениях такой шрифт не может быть распознан ни системой распознавания, ни визуально;
- В процессе сканирования используются документы самого разного качества (часто низкого) и сканеры с очень разными техническими характеристиками;
- Документ одного типа может иметь разные шаблоны;
- Исходная ориентация документа, используемая при сканировании, заранее не известна;
- Имена файлов полученных сканов документов могут быть произвольными и повторяться;
Безопасность персональных данных
Изначально задача нам не показалась слишком сложной и выглядела вполне стандартно: Требования -> Поставщик -> Модель -> Тестирование модели -> Запуск процесса.В случае неудачных испытаний модель возвращается производителю на переобучение.
Мы получаем огромное количество сканов документов каждый день, и подготовка образца для обучения модели не должна была стать проблемой.
Вся обработка персональных данных должна соответствовать требованиям Федерального закона «О персональных данных» N152-ФЗ.
Согласие клиента на обработку персональных данных клиентов предоставляется только внутри Росбанка.
Мы не можем передать клиентские документы поставщику для обучения модели.
Были рассмотрены три пути решения проблемы:
- Распространите и обеспечьте себе стандартные формы согласия для всех клиентов на передачу персональных данных в случаях передачи данных поставщику, что означает прохождение длительного пути со всеми необходимыми согласованиями в крупной компании, что, в свою очередь, поставит под угрозу соблюдение сроков проекта;
- Маскируйте готовые данные.
Этот путь означал бы высокий риск получения неточной модели и большие трудозатраты на подготовку выборки документов, так как каждый документ пришлось бы обрабатывать вручную – удаляя (маскируя) персональные данные, а также проводя итоговую проверку всей совокупности.
массив подготовленных документов для корректности и полноты удаления персональных данных;
- Синтезировать (моделировать) документы из несуществующих данных.
Было ясно, что этот путь потребует привлечения подразделений банка для синтеза, печати и сканирования документов и, следовательно, значительного объема ручной работы, но в то же время обеспечит максимальную гибкость и оперативность внесения изменений;
Модельное обучение
Проанализировав с командой предложенные варианты относительно скорости их реализации и возможных рисков, мы выбрали третий вариант — путь моделирования документов для обучения модели.Основным преимуществом этого процесса является возможность охватить максимально широкий диапазон сканирующих устройств, чтобы уменьшить количество итераций по калибровке и уточнению модели.
Шаблоны документов реализованы в формате html. Быстро и качественно подготовили массив тестовых данных и макрос, наполнив шаблоны синтезированными данными и автоматизировав печать.
Далее мы сгенерировали печатные формы в формате pdf и присвоили каждому файлу уникальный идентификатор для проверки ответов, полученных от инструмента распознавания.
Обучение нейросети, разметка областей и настройка формы происходили на стороне вендора.
В связи с ограниченностью времени обучение модели было разделено на 2 этапа.
На первом этапе модель обучалась распознаванию типов документов и «грубому» распознаванию содержимого самих документов: Требования -> Поставщик -> Подготовка тестовых данных -> Сбор данных -> Обучение модели распознаванию формы -> Тестирование форм -> Настройка модели На втором этапе модель детально обучалась распознаванию содержимого каждого типа документа.
Обучение и внедрение модели на втором этапе можно описать следующей схемой, единой для всех типов документов: Подготовка тестовых данных в различных разрешениях -> Сбор и передача данных поставщику -> Обучение модели -> Тестирование модели -> Калибровка модели -> Реализация модели -> Результаты тестирования в бою -> Выявление проблемных случаев -> Моделирование проблемных случаев и передача поставщику -> Повторение шагов тестирования Следует отметить, что, несмотря на очень широкий охват спектра используемых сканирующих устройств, ряд устройств все же не был представлен в примерах для обучения модели.
Поэтому модель вводилась в бой в пилотном режиме, а результаты не использовались для автоматизации.
Данные, полученные в ходе опытно-промышленных работ, лишь фиксировались в базе данных для последующего анализа и анализа.
Тестирование
Поскольку цикл обучения модели находился на стороне вендора и не был связан с системами банка, после каждого цикла обучения модель передавалась вендором в банк, где она тестировалась на тестовой среде.В случае успешной проверки модель передавалась в среду сертификации, где проводилось регрессионное тестирование, а затем в промышленную среду для выявления особых случаев, не учтенных при обучении модели.
В пределах периметра банка данные передавались в модель, а результаты записывались в базу данных.
Анализ качества данных проводился с помощью всемогущего Excel — с использованием сводных таблиц, логики с формулами и их комбинациями vlookup, hlookup, index, len, match и посимвольного сравнения строк через функцию if. Тестирование с использованием смоделированных документов позволило нам запустить максимальное количество тестовых сценариев и максимально автоматизировать процесс.
Сначала была проведена проверка вручную, чтобы убедиться, что все возвращаемые поля соответствуют исходным требованиям для каждого типа документа.
Далее были проверены ответы модели при динамическом заполнении текстовых блоков разной длины.
Целью было проверить качество ответов при перемещении текста из строки в строку и со страницы на страницу.
В конце качество ответов проверялось по полю в зависимости от качества сканирования документа.
Для максимально качественной калибровки модели использовались сканы документов с низким разрешением.
Особое внимание стоило уделить самому сложному документу, содержащему наибольшее количество полей и флажков – анкете KYC. Для него были заранее подготовлены специальные скрипты для заполнения документа и написаны автоматизированные макросы, что позволило ускорить процесс тестирования, проверить все возможные комбинации данных и оперативно предоставить обратную связь поставщику для калибровки модели.
Интеграция и внутреннее развитие
Необходимые модификации банковских систем и межсистемная интеграция были проведены заранее и подвергнуты тестовой среде банка.Реализованный сценарий состоит из следующих этапов:
- Прием входящих сканов документов;
- Отправка принятых сканов в механизм распознавания.
Отправка возможна в синхронном и асинхронном режиме с количеством потоков до 10;
- Получение ответа от механизма распознавания, проверка и подтверждение полученных данных;
- Сохранение оригинального скана документа в электронной библиотеке банка;
- Инициирование процессов обработки в системах банка данных, полученных от системы распознавания, и последующая проверка сотрудником;
Нижняя граница
На данный момент обучение модели завершено, бизнес-процесс успешно протестирован и внедрен в производственную среду банка.Автоматизация позволила сократить среднее время открытия счета с 20 минут до 5 минут. Автоматизирован трудоемкий этап бизнес-процесса распознавания и ввода данных документа, который ранее выполнялся вручную.
При этом резко снижается вероятность ошибок, возникающих под воздействием человеческого фактора.
Кроме того, в разных банковских системах гарантируется идентичность данных, взятых из одного и того же документа.
Теги: #Обработка изображений #росбанк #societe Generale
-
Бесплатно С Синего Экрана Компьютера
19 Oct, 24 -
Таннери, Жюль
19 Oct, 24 -
Вручение Ux-Оскара В Нью-Йорке
19 Oct, 24 -
Канобувости 11 Выпуск
19 Oct, 24 -
Не Знаю, Как Учиться Или Искать Партнёра?
19 Oct, 24 -
Проблемы Интернета Будущего. Что Нас Ждет?
19 Oct, 24 -
Жизнь Без Ie6
19 Oct, 24