Определение жанра и автора литературного произведения статистическими методами - Ю. Н. Орлов (2010г.)

Книга Определение жанра и автора литературного произведения статистическими методами рассматривает проблему классификации литературных текстов по жанрам и авторам с помощью статистических методов. Авторы используют функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов, как основной инструмент анализа. Для набора текстов, размер которого достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет с высокой точностью определить автора (с ошибкой не более 5%) и жанр (с ошибкой не более 15%). Однобуквенные распределения дают более высокую ошибку в 15% и 25% соответственно.

Книга Определение жанра и автора литературного произведения статистическими методами представляет собой исследование, посвященное применению статистических методов для классификации литературных текстов по авторам и жанрам. В качестве основного инструмента анализа использованы функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные на основе фрагментов текстов. Для создания модели классификации был выбран набор текстов, объем которого позволяет считать буквенное распределение каждого из них стационарным с ошибкой не более 3%. Расстояния между распределениями букв были вычислены в пространстве суммируемых функций, а критерий кластеризации основывался на близости между двухбуквенными распределениями текстов. Результаты показали, что этот подход позволяет с высокой точностью определять автора текста с ошибкой не более 5% и жанр с ошибкой не более 15%. Однобуквенные распределения давали более высокую ошибку в 15% и 25% соответственно. Книга может быть полезной для лингвистов, литературоведов и специалистов, занимающихся анализом текстов.

Электронная Книга «Определение жанра и автора литературного произведения статистическими методами» написана автором Ю. Н. Орлов в 2010 году.

Минимальный возраст читателя: 0

Язык: Русский

Серии: Прикладная информатика. Научные статьи


Описание книги от Ю. Н. Орлов

В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.



Похожие книги

Информация о книге

  • Рейтинг Книги:
  • Автор: Ю. Н. Орлов
  • Категория: Математика
  • Тип: Электронная Книга
  • Дата выхода: 2010г.
  • Язык: Русский
  • Из Серий: Прикладная информатика. Научные статьи
  • Издатель: Синергия