Эта книга описывает подход к поиску эквивалентных текстов, что может быть полезно для обнаружения дубликатов текста, определения авторства, выявления плагиата, организации библиотечного поиска и создания поисковых систем в Интернете. Авторы учитывают несколько особенностей при формировании поискового множества, таких как частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста, такие как специфические цифро-буквенные сочетания. В книге также описаны результаты эксперимента, в котором были использованы как оригинальные тексты, так и их модифицированные варианты. Были выявлены слабые стороны подхода, а также предложены варианты для улучшения программного средства и схемы взаимодействия модулей после модификации.
Для читателей данная книга может быть интересна тем, кто развивает сферы написания, редактирования и продвижения книг. Рассматриваемая в данном труде тема является актуальной для сферы издательского дела, поэтому книга будет полезна не только для специалистов, но и для работников образовательной сферы. Данная книга посвящена исследованию различных методов и технологий, связанных с поиском эквивалентных текстовых произведений.
В представленной работе авторы подробно излагают существующие подходы к решению данной задачи. Один из способов, который активно применяется в различных сферах, можно условно назвать лингвистическим. Указанный способ основывается на наличии схожих, паронимов, синонимов и других слов, основывая на том, что перед написанием своего произведение в голову автору могут прийти какие-либо стандартные выражения.
Авторы данной научной статей описывают другой метод, который основывается на учете специальных программных фишек. Речь идет о цивилизации текстов. Ученые ссылаются на авторов, которые предполагают, что язык и его площадки имеет демографический формат (если принять за основу теорию Чарбона), то есть каждое предложение материализуется через конкретное условие. Таким образом, авторы статьи считают, что выявлением плагиата с использованием методов машинного обучения поможет искусственный интеллект.
Электронная Книга «О поиске эквивалентных текстов» написана автором Д. С. Бухаров в 2016 году.
Минимальный возраст читателя: 0
Язык: Русский
Серии: Прикладная информатика. Научные статьи
Описание книги от Д. С. Бухаров
В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания). Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации.