Книга “Применение нечетких деревьев решений для рубрицирования неструктурированных текстовых документов малого размера” авторства М.И. Дли рассматривает проблему автоматической классификации электронных обращений, представленных в виде неструктурированного текста. Качество обработки таких сообщений напрямую зависит от точности их рубрицирования (отнесения к определенной предметной области). Однако специфика таких документов (небольшие размеры, наличие ошибок и отсутствие четкой структуры) не позволяет использовать традиционные методы рубрицировки.
В книге предлагается модель рубрикации электронных неструктурированных документов, основанная на нечетких деревьях решений, учитывающих синтаксические связи и роли слов в предложении. Построение деревьев решений основывается на анализе пересечений словарей и расстояний между рубриками, что позволяет более точно классифицировать документы в условиях взаимосвязанности рубрик.
Книга будет полезна для специалистов в области обработки естественного языка, машинного обучения и информационных технологий, а также для всех, кто интересуется проблемами классификации и рубрицирования документов.
Предлагается методика использования деревьев решений на нечеткой MLP - базе для решения задачи автоматической рубрикации разнородных текстовых содержащихся в поступающих запросах пользователей средствами электронной почты.
Электронная Книга «Применение нечетких деревьев решений для рубрицирования неструктурированных текстовых документов небольшого размера» написана автором М. И. Дли в 2019 году.
Минимальный возраст читателя: 0
Язык: Русский
Серии: Прикладная информатика. Научные статьи
Описание книги от М. И. Дли
Ежедневно на Интернет-порталы органов государственной власти поступает большое количество электронных обращений (заявлений, предложений или жалоб), представленных в неструктурированном текстовом виде. Качество и скорость автоматической обработки указанных сообщений напрямую зависит от правильности их классификации (отнесения к конкретной предметной области), в основе которой лежат их отличительные особенности. Однако специфика таких сообщений (небольшой размер, наличие ошибок, отсутствие четкой структуры и т.д.) не позволяет использовать известные методы рубрицирования текстовых документов. Авторами разработана модель рубрицирования электронных неструктурированных текстовых документов с учетом синтаксических связей и ролей слов в предложениях на основе нечеткого дерева решений. Построение дерева решений основано на анализе степени пересечений словарей рубрик, а также расстояний между рубриками в n-мерном пространстве признаков. Данная модель позволяет более точно рубрицировать электронные неструктурированные текстовые документы в условиях взаимосвязанных рубрик, а также повысить оперативность обработки поступивших документов.