К Вопросу Об Использовании Энтропии Для Идентификации Текстов

Одной из практических проблем, с которыми сталкивается теория информации, является вопрос идентификации текстов и определения авторства.

Изучим один из возможных способов решения этой проблемы, основанный на измерении и сравнении показателей энтропии данного и эталонного текстов для задачи определения принадлежности фрагмента текста.

Обычно для сравнения текстов и определения авторства используется энтропия марковского процесса, показывающая среднее количество информации в битах, которое передает один символ, если он известен.

к–1 предыдущие.

Прочитав некоторые из этих работ, не приняв во внимание, что сравниваемые произведения имели разные объемы, я решил изучить зависимость энтропии текста от его объема.

Из шести текстов трех авторов были сделаны выборки разного размера и рассчитаны средние значения энтропии от 1-го по 6-й порядок включительно.

Результаты работы можно увидеть на графиках (верхние линии соответствуют энтропии 1-го порядка, нижние – 6-го):

К вопросу об использовании энтропии для идентификации текстов

Таким образом, чем выше порядок, тем сильнее логарифмическая зависимость энтропии от объема текста.

При этом уже для второго порядка с заданными выборками логарифмический тренд объясняет в среднем 85% дисперсии, при учете объемов менее 50 тысяч символов – более 90%.

Это означает, что наиболее устойчивой и независимой от объема текста является энтропия первого порядка, то есть частотное распределение отдельных символов без учета их последовательности.

При более детальном рассмотрении энтропии первого порядка можно увидеть, что для объема менее 30 тысяч знаков средняя энтропия меньше энтропии всего текста, но общие соотношения сохраняются (пунктиром показана энтропия всего текста)

К вопросу об использовании энтропии для идентификации текстов

Видно, что графики пересекаются, что уже говорит о том, что в точках пересечения невозможно однозначно определить идентичность текста.

Однако, чтобы ответить на вопрос о разрешимости нашей проблемы, необходимо оценить разброс значений внутри одного текста.

На следующем графике все промежуточные образцы показаны точками.

Возникающее в результате колебание энтропии внутри одного текста превышает разницу между средними значениями, что указывает на невозможность точного решения задачи принадлежности фрагменту текста в этих условиях.

К вопросу об использовании энтропии для идентификации текстов

Таким образом, метод, основанный на прямом сравнении энтропий фрагмента текста и эталонного текста, крайне неточный и не пригоден для идентификации текстов из-за большого разброса значений внутри текста.

В отличие от характеристик, основанных на количестве N-грамм и прямом сравнении относительных частот их распределения, энтропия является обезличенным параметром и ее использование в точных задачах может привести к ошибкам.

Теги: #исследования #информация #информация #тексты #идентификация #энтропия #Чулан

К Вопросу Об Использовании Энтропии Для Идентификации Текстов

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

К Вопросу Об Использовании Энтропии Для Идентификации Текстов

«Ростелеком» Доверил Разработку Дизайна Аналога Skype Своей «Дочке» За 3,5 Млн Рублей

О Чем Молчит Начальник?

Анализ Атаки На Пользователя I2P

Фантастические Инди-Игры: Odyssey, Kerbal Space Program, Chromagun И Другие.

Четыре Новые Атаки На Схему Безопасного Обмена Ключами Kljn

Старение И Менопауза – Две Программы Контроля Рождаемости

Парализованный Мужчина Пьет Пиво, Используя Роботизированную Руку.

Базовый Чертеж С Pil

Bloomberg: Недорогой Ipad Будет Представлен К Концу Года

Сильная «Кафе» Для Завтраков И Выездных Хакатонов: Почему Это Важно Для Развития Сообщества Data Science

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha