Представляю читателям статистику, собранную при создании простого робота-генератора русских фраз.
Распределение слов
Сначала позвольте мне привести вам некоторые цифры.На 12,5 МБ русского текста (в основном классическая литература разных авторов), на 142 114 различных словах в нем союз «и» встречается чаще всего — 83 575 раз (слова взяты во всех словоформах).
А это больше половины! На втором месте по частоте появления предлог стоит предлог «в» — 52 124 раза, на третьем месте частица «не»: 36 268 раз.
Глагол «сказал» (единственное число, 3 года) встречается 6566 раз и находится на 28-м месте.
Но слово «да» находится на 36-м месте и встречается 5039 раз, а «нет» встречается 2948 раз и находится на 53-м месте.
Остальные слова были выбраны совершенно случайно, исходя из предпочтений автора.
Частота слов в корпусе текстов изучается с момента открытия закона Ципфа для английского языка (т.е.
уже более 60 лет), изданы различные словари и обзоры на эту тему, но мы рассмотрим русскую речь.
немного более внимательно и четко.
Подробные графики и примеры с выводами Теги: #искусственный интеллект #nlp #статистика #обработка слов #обработка слов #семантическая сеть #Чулан
-
Обзор Электронной Книги Lexand Le-116
19 Oct, 24 -
Саундтрек №35
19 Oct, 24 -
Ньюскало: История Успеха Из Хорватии
19 Oct, 24 -
В Чем Смысл Жизни, Чувак?
19 Oct, 24 -
Яндекс.картинки – Больше Не Дальтоник!
19 Oct, 24