Итоги И Перспективы Небольшого Анализа Русских Текстов

Представляю читателям статистику, собранную при создании простого робота-генератора русских фраз.



Распределение слов

Сначала позвольте мне привести вам некоторые цифры.

На 12,5 МБ русского текста (в основном классическая литература разных авторов), на 142 114 различных словах в нем союз «и» встречается чаще всего — 83 575 раз (слова взяты во всех словоформах).

А это больше половины! На втором месте по частоте появления предлог стоит предлог «в» — 52 124 раза, на третьем месте частица «не»: 36 268 раз.

Глагол «сказал» (единственное число, 3 года) встречается 6566 раз и находится на 28-м месте.

Но слово «да» находится на 36-м месте и встречается 5039 раз, а «нет» встречается 2948 раз и находится на 53-м месте.

Остальные слова были выбраны совершенно случайно, исходя из предпочтений автора.



Итоги и перспективы небольшого анализа русских текстов



Итоги и перспективы небольшого анализа русских текстов

Частота слов в корпусе текстов изучается с момента открытия закона Ципфа для английского языка (т.е.

уже более 60 лет), изданы различные словари и обзоры на эту тему, но мы рассмотрим русскую речь.

немного более внимательно и четко.

Подробные графики и примеры с выводами Теги: #искусственный интеллект #nlp #статистика #обработка слов #обработка слов #семантическая сеть #Чулан

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.