Как Искусственный Интеллект Помогает Работать С Юридическими Документами? Лекция Егора Будникова Из Abbyy

Недавно системный аналитик технологического отдела ABBYY Егор Будников выступал в «Яндексе» на конференции « Данные и наука: право и офисная работа Он рассказал о том, как работает компьютерное зрение, обработка текста, на что важно обращать внимание при извлечении информации из юридических документов и многое другое.

— В компании могут быть разработаны методики анализа данных и электронный документооборот, а документы, созданные в Word, можно присылать в компанию от клиентов или из соседних подразделений, распечатывать, ксерокопировать, сканировать и приносить на флэшке.

Что делать с тем документооборотом, который у нас сейчас есть, с «грязными» документами, с бумажным хранилищем, до того, что документы могут храниться до 70 лет, прежде чем их отсканируют и их нужно будет распознать?

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

ABBYY разрабатывает технологии искусственного интеллекта для решения бизнес-задач.

Искусственный интеллект должен уметь делать примерно то же, что человек делает в повседневной или профессиональной деятельности, а именно: считывать информацию о реальном мире с картинки или потока картинок.

Это может быть не только компьютерное зрение, но и прослушивание или распознавание данных от датчиков, например, от датчиков дыма или температуры.

Далее данные с этих датчиков поступают в систему и должны участвовать в принятии решений.

Для успешной реализации этой функции система не должна допускать глупых логических ошибок, как на картинке:

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Тексты сложны для анализа: разнообразие и развитие языка делают их красивыми и выразительными, но это усложняет задачу их автоматической обработки.

Обычно многозначность слов преодолевается тем, что мы можем по контексту определить, что означает то или иное слово, но иногда контекст оставляет место для интерпретации.

Во фразе " Данные виды стали есть в наличии «Из контекста невозможно понять со стопроцентной точностью: то ли это люди, обедающие в помещении, то ли это какие-то марки стали, которые хранятся на складе.

Чтобы разрешить эту двусмысленность, необходим более широкий контекст.

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Нижняя часть коллажа — кадр из фильма «Операция «Ы» и другие приключения Шурика».

В общем, искусственный интеллект или умный робот должен уметь передвигаться в пространстве и успешно взаимодействовать с объектами — например, раз за разом поднимать коробку, которую инструктор выбивает из рук.

Наконец, общий интеллект и представление знаний: знания отличаются от информации тем, что их части активно взаимодействуют друг с другом, порождая новые знания.

Чтобы эффективно решить проблему смешивания коктейлей, можно пойти простым путем: перечислить ингредиенты и указать, в каком порядке их смешивать.

В этом случае система не сможет отвечать на произвольные вопросы по интересующему ее предмету.

Например, что будет, если заменить томатный сок ананасовым.

Для того чтобы система лучше усваивала материал, необходимо добавить базы данных, таксономии (деревья понятий, логически связанные друг с другом), процедуру логического вывода.

В этом случае мы действительно сможем сказать, что система понимает, что делает, и сможет ответить на любой вопрос о процессе.

Искусственный интеллект, который разрабатывает компания ABBYY, обрабатывает документы, то есть превращает бумажные, отсканированные и электронные носители в структурированную информацию, извлеченную из этих документов.

Давайте сосредоточимся на двух компонентах, таких как компьютерное зрение и обработка текста.

Компьютерное зрение позволяет превращать PDF, отсканированные изображения, картинки в редактируемые текстовые форматы.

Почему эта задача сложна? Во-первых, документы могут иметь любую структуру.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Это значит, что сначала нужно решить задачу структурного анализа документов: понять, где расположены текстовые блоки, картинки, таблицы, списки, а затем определить, как они взаимодействуют друг с другом.

Во-вторых, документы могут быть на разных языках.

Это означает, что необходимо поддерживать обнаружение разных типов письма и способность распознавать слова и символы, которые могут сильно отличаться друг от друга.

В-третьих, изображения приходят к нам из реального мира, а значит, с ними может случиться что угодно.

Они могут быть искажены, сфотографированы с неправильного ракурса, иметь пятна кофе, полосы от принтера, а затем от сканера.

Со всем этим надо как-то разобраться, чтобы потом извлечь информацию.

Как работает распознавание изображений в нашей стране? На первом этапе мы получаем и обрабатываем изображения.

Документ распрямляется и исправляются искажения.

Затем анализируется структура страницы, на этом этапе находятся и определяются типы блоков.

После определения блоков и выравнивания строк или столбцов вы можете разделить эти строки на слова и символы, например, используя вертикальные и горизонтальные гистограммы распределения черного цвета.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Таким образом, вы можете определить, где находятся границы символов и слов, а затем распознать, что это за символы и слова.

Наконец, распознанные блоки синтезируются в отдельные текстовые документы и экспортируются.

Этот процесс можно рассматривать с точки зрения сущностей разных уровней.

Сначала у нас есть документ, разбитый на страницы.

Затем эти страницы необходимо разбить на блоки, блоки на строки, строки на слова, слова на символы, а затем эти символы необходимо распознать.

После этого собираем распознанные символы в слова, слова в строки, строки в блоки, блоки в страницы, страницы в документ. В этом случае на обратном пути исходный раздел может измениться.

Самый простой пример: если изначально разбитые блоки принадлежали одному нумерованному списку, то в конечном итоге они должны принадлежать одному блоку с типом «структурированный список».

Другими словами, соседние этапы могут влиять друг на друга с целью повышения качества распознавания.

Документ распознан, и далее необходимо извлечь из него информацию.

Документы можно разделить на более структурированные и менее структурированные.

Более структурированные включают визитные карточки, чеки и счета-фактуры.

Менее структурированные включают доверенности, уставы и статьи в журналах.

Если тип документа фиксирован, он более или менее структурирован и документы внутри этого типа мало отличаются друг от друга по структуре, можно использовать методы, которые учатся непосредственно извлекать необходимые атрибуты из текстового документа с помощью текстовых и графических признаков.

Например, с помощью рекуррентных нейронных сетей можно извлекать позиции товаров из счетов-фактур.

Счета-фактуры — это документы, в которых представлены позиции товаров и описаны способы оплаты этих товаров.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Другой пример – чеки.

Используя сверточные нейронные сети, вы можете извлекать отдельные атрибуты, такие как идентификационный номер налогоплательщика, номер чека, дату и время, итоговый счет. Честно говоря, и чеки, и счета-фактуры используют оба метода, но для разных целей.

Сверточные нейронные сети хороши для отдельных атрибутов, имеющих определенную позицию, а рекуррентные сети хороши для повторяющихся элементов.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Когда документы менее структурированы, в игру вступают методы обработки естественного языка, или НЛП.

Почему это сложно? Я уже говорил о многозначности слов.

Слово адрес, например, может означать адрес компании, а может означать ее обязательства по решению каких-то проблем клиента.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Кроме того, слова часто опускаются, но подразумеваются в текстах.

Для того, чтобы извлечь информацию, вам необходимо восстановить эти недостающие слова.

Этот эффект в лингвистике называется «многоточие».

Язык разнообразен, и обычно существует бесчисленное множество способов выразить одну и ту же мысль.

Чтобы автоматически обрабатывать тексты, необходимо как-то уменьшить эту вариативность: использование синонимов и подобных конструкций для замены одного слова или выражения; перестановка слов или изменение грамматического залога.

Например, «компании заключили договор» и «договор заключен между компаниями» означают одно и то же.

В случае с синонимами можно ввести так называемое семантическое пространство — векторное пространство, в котором слова представлены в виде точек.

Близкие точки обозначают близкие понятия, дальние точки — более отдаленные понятия.

Чтобы уменьшить вариативность формулировок, можно ввести синтаксические и семантические деревья разбора.

В этом случае также решается подобная задача, и алгоритм извлечения информации способен извлекать информацию, даже если встречает конструкции или слова, ранее не встречавшиеся в обучающем наборе.

Как извлекается информация? На первом этапе проводится лексический анализ документа.

Текст разбит на абзацы, абзацы на предложения, предложения на слова.

Это может быть нетривиально: те из вас, кто знаком с НЛП, возможно, знают, что даже такая, казалось бы, простая задача, как разбиение текста на предложения, может оказаться сложной: точки не всегда означают конец предложения.

Это могут быть неизвестные сокращения, поэтому при лексическом анализе мы стараемся перебрать все возможные варианты разбиения предложения на слова и оставить наиболее вероятные.

Обычно мы сталкиваемся с этой проблемой в языках, в которых мало или вообще нет пробелов, например в японском или китайском.

Или у них богатое словообразование.

Это, например, такой язык, как немецкий: в нем есть очень длинные слова, состоящие из нескольких слов (такие слова называются составными).

Также для всех этих слов просчитываются все возможные толкования.

Например, если в тексте «г» стоит с точкой, то это может означать очень многое: город, год, грамм, мастер и даже четвертую точку (а, б, в, г).



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Затем производится сегментация, то есть поиск интересующих нас разделов.

Он производится по разным причинам, например, для ускорения обработки документа или для поиска интересующей нас информации; найти какой-нибудь документ, в котором говорится об обязанностях партии.

Или ускоряет обработку, например, наш документ в особо сложных случаях может состоять из нескольких десятков, а то и сотен страниц, а интересная информация содержится всего в нескольких страницах.

Сегментация позволяет находить эти интересные фрагменты и анализировать только их.

Затем может проводиться семантический анализ документа, а может и не проводиться, это зависит от задачи, и на этом этапе производится поиск лучших интерпретаций предложений, всех предложений в документе или только тех, которые мы нашли на предыдущем этап.

На следующем этапе для классификатора также генерируются семантические признаки.

Наконец, этап непосредственного извлечения атрибутов.

Здесь используются машинно-обученные модели или пишутся простые шаблоны.

Так или иначе, они опираются на признаки, порожденные предыдущими этапами.

Это структурные особенности, лексические и семантические.

В зависимости от сложности задачи мы используем множество разных методов: как методы машинного обучения, так и методы написания шаблонов.

На этом этапе мы ищем атрибуты, которые нас интересуют. Это могут быть наименования сторон, обязательства, дата подписания и т.д. Наконец, некоторые атрибуты могут потребовать постобработки.

Приведение к нормальной форме или приведение к шаблону даты.

Некоторые атрибуты в принципе можно вычислить; они не извлекаются из контракта, а рассчитываются на основе тех атрибутов, которые извлекаются из контракта.

Например, продолжительность контракта зависит от начала действия и его окончания.

Рассмотрим это на одном из сценариев, он называется «Открытие счета юридическим лицом».

Какова задача? Юридическое лицо, а точнее его представитель, приходит в банк и приносит изрядную стопку документов.

В хорошем случае он уже отсканировал эти документы, но неясно, в каком качестве.

Чтобы оптимизировать процесс, уменьшить количество ошибок при вводе этой информации в систему, ускорить этот процесс, а значит, ускорить принятие решений и повысить лояльность клиентов, была предложена следующая схема:

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Учредительные документы, которые включают в себя множество различных типов, сначала сканируются, а затем распознаются.

Более того, после распознавания они классифицируются на разные типы, и в зависимости от типа для распознавания и извлечения информации могут применяться разные алгоритмы.

Затем, при необходимости, эта добытая информация отправляется людям на проверку, и после этого вы можете принять решение: открыть счет или нужны еще какие-то дополнительные документы.

Главный результат данного решения — сокращение вдвое затрат на ввод данных при открытии счета.

Результаты основаны на измерениях нашего клиента.

Какие атрибуты необходимо извлечь? Много вещей.

Допустим, мы получаем на свой вход какой-то устав.

Сначала мы признаем это.

Как мы помним, это может быть довольно проблематично, если это скан или фотография.

Затем мы определяем тип документа, а это важно, поскольку нужная нам информация может содержаться в какой-то конкретной главе или подпункте, и поэтому алгоритму извлечения информации очень помогает знание того, когда эта глава или подпункт начинается или заканчивается.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Затем машина извлекает все базовые объекты, к которым она может добраться:

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Это необходимо для того, чтобы на следующем этапе извлечения атрибутов или определения ролей алгоритм мог использовать не только контекст, но и признаки, сгенерированные на предыдущих этапах.

Например, информация о том, что это какой-то человек, может существенно упростить задачу определения того, кто является директором юридического лица.

Соответственно, среди множества лиц, фигурирующих в документе, мы должны классифицировать их по признаку того, являются ли они директором или нет. Когда у нас ограниченное количество объектов, это значительно упрощает задачу.

За последние два года мы столкнулись с рядом других проблем клиентов и успешно их решили.

Например, мониторинг СМИ корпоративных рисков.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

В чем здесь задача бизнеса? Например, у вас есть потенциальный партнер или клиент, который хочет взять у вас кредит. В целях ускорения обработки данных этого клиента и снижения рисков плохого партнерства, либо будущего банкротства этого юридического лица, предлагается осуществлять мониторинг СМИ на предмет упоминаний об этом физическом или юридическом лице и на наличие т. д. в этих новостях называются индикаторами риска.

То есть, если, например, в новостях постоянно всплывает, что юридическое лицо вовлечено в судебные тяжбы или компанию раздирают конфликты акционеров, лучше узнать об этом заранее, чтобы донести эту информацию до аналитики или аналитическую систему и понять, насколько это плохо или хорошо для вашего бизнеса.

Результатом решения данной проблемы является получение более полной и точной информации о заемщике, а также сокращение количества времени на получение этой информации.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Еще одним примером приложения, где необходимо уменьшить количество рутины и количество ошибок при вводе информации в систему, является извлечение данных из контрактов.

Предлагается распознавать контракты, извлекать из них информацию и отправлять ее непосредственно в систему.

После этого отдел кадров слезно благодарит вас и тепло приветствует на каждой встрече.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

От большого объема рутинной работы с входящей документацией страдает не только HR-отдел, страдают также бухгалтерия, отдел продаж, отдел закупок.

Сотрудникам приходится тратить много времени на ввод информации из счетов, входящих отчетов и так далее.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

На самом деле все эти документы структурированы, а потому распознать их и извлечь из них информацию несложно.

Скорость ввода данных увеличивается до 5 раз, при этом снижается количество ошибок, поскольку исключается человеческий фактор.

Условно, если сотрудник возвращается после обеда, он может начать невнимательно вводить данные.

Наши собственные измерения и индустрия, так или иначе занимающаяся ручным вводом информации в системы, говорят о том, что если человек вводит данные из документа, причем делает это на постоянной основе и в потоке, то он редко достигает качества более 95%, а чаще и более 90%.

Поэтому человека нужно пересчитывать и перепроверять даже больше, чем машину.

Более того, если машина дает какую-то оценку уверенности в том, что она не извлекла - например, какой-то документ может быть грязным - и машина не уверена, что она извлекла, но может сигнализировать проверяющему, что она не очень уверена в этот результат: «Пожалуйста, проверьте еще раз».

И человек дважды проверяет индивидуальную информацию, чтобы убедиться в ее высоком качестве.

Это не такая уж рутинная операция: он проверяет только действительно важные и сложные моменты, глаза не замыливаются.

Если информацию можно извлечь из документов, эту информацию можно сравнить.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Это важно в двух случаях.

Во-первых, для сравнения разных версий одного документа, например, договора, согласование которого занимает много времени, в него постоянно вносятся изменения с обеих сторон.

Во-вторых, это сравнение документов разных типов, например, если есть договор, в котором указано, что мы должны получить от партнера, с другой стороны, есть разные счета-фактуры и отчеты, сметы и т. д. Нам нужно соотнести их и понимать, что все в порядке, а если не в порядке, то как-то сигнализировать об этом ответственным людям.

Текущее развитие технологий компьютерного зрения, обработки структурированных и неструктурированных документов настолько велико, что уже сейчас и в ближайшие годы будет ощущаться цифровая трансформация рутинных процессов в компаниях, ведь это дешевле, быстрее и зачастую качественнее.

Однако все эти методы никоим образом не предназначены для замены людей.

Скорее мне нравится пример сравнения с инструментом Excel, в котором можно многое сделать и этот инструмент не призван заменить аналитиков, менеджеров или кого-либо еще.

Он призван расширить возможности человека и облегчить ему решение задач.



Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Таким образом, решения, связанные с искусственным интеллектом, призваны также сократить количество повторяющихся рутинных операций, в которых человек зачастую допускает больше ошибок, чем машина, чтобы разгрузить ресурсы компании и направить их на решение более творческих и интеллектуальных задач.

И кажется, что мы движемся туда полным ходом.

Спасибо.

Теги: #искусственный интеллект #Обработка естественного языка #Обработка изображений #распознавание изображений #компьютерное зрение #лекция #abbyy #abbyy_nlp

Вместе с данным постом часто просматривают: