Книга «Система классификации документов с маркерологическими данными», автор В.В.Еремеева, посвящена важной проблеме организации эффективного документооборота на предприятиях, осуществляющих геологоразведывательные работы на территории российской федерации.
В данной работе представлен алгоритм, основанный на машинном обучении, который позволяет автоматизировать процесс классификации документов по заданному критерию. Автором предложены различные подходы и методы для решения задачи, которые могут быть применены для автоматической обработки электронных документов. Особое внимание уделяется вопросу подбора и настройки параметров моделей машинного обучения.
Глава 1 описывает основные принципы и этапы разработки автоматизированной системы классификации. Глава 2 содержит описание этапов предварительной обработки текстовых данных и настроек подготовки данных для обучения модели. Глава 3 описывает метод машинного обучения и показывает результаты его применения на реальных данных. Глава 4 посвящена анализу эффективности полученных результатов.
Книга «Система классификации» будет интересна специалистам в области цифровой обработки текстов, алгоритмам машинного обучения, а также тем, кто интересуется вопросами использования передовых технологий при обработке данных
В работе проводится исследование, касающееся автоматизации обработки документооборота по направлению принадлежности документов к горнодобывающей промышленности. Основной задачей исследования было создание алгоритма автоматической классификации маркшейдерских документов, получаемых в цифровом виде. В ходе работы авторами предложена комплексная модель автоматической обработки маркшейдерско-геологических данных в электронном формате. Определен подход к предварительной обработке поступающих текстовых данных для последующего использования в процессе классификации. А затем предложен сравнительный анализ различных типов моделей машинного обучения с целью выбора подходящей кандидатуры для применения в поставленной задаче автоматической классификации документов горнодобывающего характера.
Электронная Книга «Система классификации документов с маркшейдерскими данными» написана автором В. В. Еремеев в 2021 году.
Минимальный возраст читателя: 0
Язык: Русский
Серии: Прикладная информатика. Научные статьи
Описание книги от В. В. Еремеев
Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API-интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных.