Одной из практических проблем, с которыми сталкивается теория информации, является вопрос идентификации текстов и определения авторства.
Изучим один из возможных способов решения этой проблемы, основанный на измерении и сравнении показателей энтропии данного и эталонного текстов для задачи определения принадлежности фрагмента текста.
Обычно для сравнения текстов и определения авторства используется энтропия марковского процесса, показывающая среднее количество информации в битах, которое передает один символ, если он известен.
к–1 предыдущие.
Прочитав некоторые из этих работ, не приняв во внимание, что сравниваемые произведения имели разные объемы, я решил изучить зависимость энтропии текста от его объема.
Из шести текстов трех авторов были сделаны выборки разного размера и рассчитаны средние значения энтропии от 1-го по 6-й порядок включительно.
Результаты работы можно увидеть на графиках (верхние линии соответствуют энтропии 1-го порядка, нижние – 6-го):
Таким образом, чем выше порядок, тем сильнее логарифмическая зависимость энтропии от объема текста.
При этом уже для второго порядка с заданными выборками логарифмический тренд объясняет в среднем 85% дисперсии, при учете объемов менее 50 тысяч символов – более 90%.
Это означает, что наиболее устойчивой и независимой от объема текста является энтропия первого порядка, то есть частотное распределение отдельных символов без учета их последовательности.
При более детальном рассмотрении энтропии первого порядка можно увидеть, что для объема менее 30 тысяч знаков средняя энтропия меньше энтропии всего текста, но общие соотношения сохраняются (пунктиром показана энтропия всего текста)
Видно, что графики пересекаются, что уже говорит о том, что в точках пересечения невозможно однозначно определить идентичность текста.
Однако, чтобы ответить на вопрос о разрешимости нашей проблемы, необходимо оценить разброс значений внутри одного текста.
На следующем графике все промежуточные образцы показаны точками.
Возникающее в результате колебание энтропии внутри одного текста превышает разницу между средними значениями, что указывает на невозможность точного решения задачи принадлежности фрагменту текста в этих условиях.
Таким образом, метод, основанный на прямом сравнении энтропий фрагмента текста и эталонного текста, крайне неточный и не пригоден для идентификации текстов из-за большого разброса значений внутри текста.
В отличие от характеристик, основанных на количестве N-грамм и прямом сравнении относительных частот их распределения, энтропия является обезличенным параметром и ее использование в точных задачах может привести к ошибкам.
Теги: #исследования #информация #информация #тексты #идентификация #энтропия #Чулан
-
О Чем Молчит Начальник?
19 Oct, 24 -
Анализ Атаки На Пользователя I2P
19 Oct, 24 -
Базовый Чертеж С Pil
19 Oct, 24