Итоги И Перспективы Небольшого Анализа Русских Текстов

Представляю читателям статистику, собранную при создании простого робота-генератора русских фраз.

Распределение слов

Сначала позвольте мне привести вам некоторые цифры.
На 12,5 МБ русского текста (в основном классическая литература разных авторов), на 142 114 различных словах в нем союз «и» встречается чаще всего — 83 575 раз (слова взяты во всех словоформах).
А это больше половины! На втором месте по частоте появления предлог стоит предлог «в» — 52 124 раза, на третьем месте частица «не»: 36 268 раз.
Глагол «сказал» (единственное число, 3 года) встречается 6566 раз и находится на 28-м месте.
Но слово «да» находится на 36-м месте и встречается 5039 раз, а «нет» встречается 2948 раз и находится на 53-м месте.
Остальные слова были выбраны совершенно случайно, исходя из предпочтений автора.

Частота слов в корпусе текстов изучается с момента открытия закона Ципфа для английского языка (т.е.
уже более 60 лет), изданы различные словари и обзоры на эту тему, но мы рассмотрим русскую речь.
немного более внимательно и четко.

Подробные графики и примеры с выводами Теги: #искусственный интеллект #nlp #статистика #обработка слов #обработка слов #семантическая сеть #Чулан

Итоги И Перспективы Небольшого Анализа Русских Текстов

Последнее изменение: 2024-10-19 21:10:22

Вместе с данным постом часто просматривают:

Итоги И Перспективы Небольшого Анализа Русских Текстов

Распределение слов

Древности: Предвестник Упадка Или Незапланированного Устаревания

Реакция Девушки-Гуманитария На Только Что Установленную Ubuntu. Второй День.

Цветной И Гибкий Дисплей: Ждем В Рулонах - Наклеим Стенки (Апд - Дисплей Прорезали И Прострелили)

Обзор Электронной Книги Lexand Le-116

Саундтрек №35

Молодежь Пользуется Мобильными Телефонами И Портит Статистику Телефонных Опросов

Ньюскало: История Успеха Из Хорватии

В Чем Смысл Жизни, Чувак?

Яндекс.картинки – Больше Не Дальтоник!

Колобок В Гостях У Windows 8: Дневники Разработчиков (Знакомство)

Автор Статьи

Роман Иванов

Интересно

Bobocomm – Создатели Рекламы...

Growbydata — Программное Обеспечение Для Конкурентной Разведки...

Neolive - Программное Обеспечение Для Цифровых Вывесок...

Casey Powell Lacrosse 18 Xbox One X S Активация...

Увеличение Трафика На Выставке За Пределами Выставочного Зала...

Партнерам Нужна Надежная Маркетинговая Стратегия, Чтобы Добиться Успеха В...

Федуленков...

Dima Manisha