Книга “Analysis of short unstructured documents using fuzzy significance scales and special procedures for economic information integration” автора Т.В. Какатунова предлагает новый подход к анализу коротких сообщений и документов, поступающих на интернет-порталы органов государственной власти и электронные письма. Эта модель позволяет классифицировать короткие неструктурированные текстовые документы при недостаточной статистической информации, а также слабой степени пересечения тем. Входными данными для создания модели являются рубрики и обучающие выборки, а результатом является нечеткая весовая оценка значимых слов в тезаурусах рубрик. Это позволяет корректно представить характеристики документа и обеспечить работу алгоритма рубрикации.
В представленной работе предлагается подход к автоматизированному анализу коротких текстовых данных в системе обеспечения передачи сообщений органами власти. Сущность рассматриваемого подхода заключается в формировании классификации вновь возникающих документов на основании множества заданных рубрик на микроуровне. Другими словами, с использованием заданного множества тематических субрубрик последовательность сообщений классифицируется в соответствии с идентификаторами, присвоенными каждой из них. Ключевым аспектом в данном контексте является возможность достижения наибольшей степени точности при отсутствии статистических данных и плохой степени обратной связи между иерархическими уровнями рубрикатора.
В монографии предложен новый метод анализа коротких, неструктурированных текстов, который позволяет повысить эффективность работы различных органов государственной власти с помощью использования современных информационных технологий.
Электронная Книга «Analysis of short unstructured documents using fuzzy significance scales and special procedures for economic information integration» написана автором Т. В. Какатунова в 2019 году.
Минимальный возраст читателя: 0
Язык: Английский
Серии: Прикладная информатика. Научные статьи
Описание книги от Т. В. Какатунова
В статье предложен новый подход к автоматическому анализу коротких сообщений, поступающих на Интернет-порталы и электронную почту органов государственной власти. Разработанная модель позволяет выполнять классификацию коротких неструктурированных текстовых документов при недостатке статистической информации и слабой степени пересечения тематических рубрик. Входными данными для алгоритма построения модели является множество рубрик и обучающая выборка, а его результатом являются нечеткие весовые коэффициенты значимых слов тезаурусов рубрик, что обеспечивает корректное представление характеристик документа и работу алгоритма рубрицирования (классификации).