Rubrication, or distribution by subject matter, of text and electronic documents is important for effective resource management in government institutions. This process involves the classification of requests from citizens and businesses received on official websites and portals, based on the semantics of their content. Traditional approaches to taxonomies are inefficient in this context because of the variety of topical categories involved, as well as the large amount of irregular metadata contained within them. To address these limitations, the authors propose an innovative methodology that involves the analysis of syntax features in unstructured documents based on a fuzzy similarity framework. The proposed solution was successfully implemented and tested by analyzing the requests submitted to the Administrative Department of the Smolensk Oblast. The resulting rubric structure allows faster and more accurate targeting of resources as well as superior document clustering in environments with dynamic ontologies and topic diversity.
В книге рассматривается проблема рубрицированной обработки текстовых документов на основе нечетких отношений различий, предложена оригинальная методика, которая с успехом эксплуатируется в Администрации Смоленской области. Для студентов, обучающихся по специальности "Прикладная информатика", и всех интересующихся вопросами информационного обеспечения государственного управления.
Данная книга посвящена проблеме автоматизации информационного обслуживания органов государственной власти путем решения задачи рубрицирования электронных документов, представляющих обращения (заявления, жалобы, предложения) граждан и организаций. Главной целью работы является создание эффективных методик работы с большими массивами неупорядоченного текстового материала. Особое внимание уделено разработке оригинального подхода к формированию рубричной базы исходя из интегральной оценки семантической близости документов на основе их синтаксических особенностей.
Электронная Книга «Rubrication of text documents based on fuzzy difference relations» написана автором М. И. Дли в 2020 году.
Минимальный возраст читателя: 0
Язык: Английский
Серии: Прикладная информатика. Научные статьи
Описание книги от М. И. Дли
Одним из ключевых направлений информатизации деятельности органов государственной власти является разработка и внедрение систем автоматизированной обработки электронных обращений (заявлений, жалоб, предложений) физических и юридических лиц, поступающих на официальные веб-сайты и порталы органов власти федеральных округов, администраций областей и других территориальных образований. Важную роль при решении данной задачи играет рубрицирование, которое заключается в распределении обращений по тематическим рубрикам, определяющих направления деятельности департаментов, осуществляющих их обработку и подготовку соответствующего ответа. Результаты анализа специфических особенности таких текстовых сообщений (небольшой размер, отсутствие разметки, наличие ошибок, нестационарность тезауруса и т. п.) подтвердили невозможность применения традиционных подходов к рубрицированию и обосновали целесообразность применения методов интеллектуального анализа данных. В статье предложен новый подход к анализу и рубрицированию электронных неструктурированных текстовых документов, поступающих на официальные веб-сайты и порталы органов государственной власти. Он предполагает формирование древовидной структуры рубричного поля, основанной на нечетких отношениях различия между синтаксическими характеристиками документов. Анализ основывается на определении нечеткого соответствия этих документов по синтаксическим характеристикам со значениями центров кластеров, проводимого последовательно от корня к листьям построенного нечеткого дерева решений. Предлагаемый метод рубрицирования программно реализован и апробирован при автоматизированной обработке и анализе обращений (заявлений, жалоб и предложений) граждан, поступающих в Администрацию Смоленской области. Это позволило обеспечить оперативную и качественную актуализацию рубрик и анализ документов в условиях нестационарности состава тезауруса и значимости слов рубрик.