Книга Определение жанра и автора литературного произведения статистическими методами рассматривает проблему классификации литературных текстов по жанрам и авторам с помощью статистических методов. Авторы используют функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов, как основной инструмент анализа. Для набора текстов, размер которого достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет с высокой точностью определить автора (с ошибкой не более 5%) и жанр (с ошибкой не более 15%). Однобуквенные распределения дают более высокую ошибку в 15% и 25% соответственно.
Книга Определение жанра и автора литературного произведения статистическими методами представляет собой исследование, посвященное применению статистических методов для классификации литературных текстов по авторам и жанрам. В качестве основного инструмента анализа использованы функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные на основе фрагментов текстов. Для создания модели классификации был выбран набор текстов, объем которого позволяет считать буквенное распределение каждого из них стационарным с ошибкой не более 3%. Расстояния между распределениями букв были вычислены в пространстве суммируемых функций, а критерий кластеризации основывался на близости между двухбуквенными распределениями текстов. Результаты показали, что этот подход позволяет с высокой точностью определять автора текста с ошибкой не более 5% и жанр с ошибкой не более 15%. Однобуквенные распределения давали более высокую ошибку в 15% и 25% соответственно. Книга может быть полезной для лингвистов, литературоведов и специалистов, занимающихся анализом текстов.
Электронная Книга «Определение жанра и автора литературного произведения статистическими методами» написана автором Ю. Н. Орлов в 2010 году.
Минимальный возраст читателя: 0
Язык: Русский
Серии: Прикладная информатика. Научные статьи
Описание книги от Ю. Н. Орлов
В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.