Простой Способ Оценить Разборчивость Текста На Русском Языке

По сути, то, что опубликовано ниже, является моим комментарием к публикации.

«Что такое «Чистый русский» с технологической точки зрения.

Давайте посмотрим на показатели читаемости текста».

Так как не могу оставлять комментарии, пишу «Песочница» .

Критерии оценки понятности текстов, о которых шла речь в посте, основаны на практически нулевом знании языка, на котором эти тексты написаны: достаточно знать, как он делится на слова и предложения.

Такой подход удобен с точки зрения простоты расчета, но не позволяет использовать много актуальных данных.

Мне кажется, в случае с русским языком очевидно, что еще можно использовать, и эти данные легко доступны.

На мой взгляд, имеет смысл разделить непонятность на два типа: а) глубокая непонятность (когда невозможно разобрать написанное); (б) неясность, связанная со сложностью.

Непонятность типа (а), которая пронизывает каждый второй, если не каждый, официальный документ, связана с тем, что люди просто не умеют выражать свои мысли.

То, что кажется ясным в голове и как-то удается объяснить «на словах», оказывается невозможным перенести на бумагу: повороты не замыкаются, анафоры переплетаются, эссе объединяет вещи, которым лучше не быть вместе, и скоро.

В чистом случае автоматически отличить это от обычного текста сложно: зачастую даже людям, читающим текст поверхностно, кажется, что это более-менее ничего, а потом оказывается, что это какой-то водоворот. Причем автоматически исправить это невозможно: сначала надо сесть у автора и долго спрашивать его, что же он на самом деле имел в виду.

Но, к счастью, эта непонятность почти всегда влечет за собой непонятность типа (б), так что, по крайней мере, можно идентифицировать непонятные тексты.

Неясность = сложность подразумевает, что люди используют какие-то нетривиальные языковые средства, которые плохо понимаются без образования и/или значительных усилий.

И здесь мы сталкиваемся с косвенным характером традиционных показателей.

Длинных предложений, конечно, лучше избегать, но длинное предложение само по себе не является синонимом темноты: простое перечисление может сделать предложение длинным, не обязательно делая его непонятным.

Использование длинных слов также не делает текст заведомо непонятным.

В конце концов, технический язык никто не отменял, и передать все тонкости простыми словами невозможно, не говоря уже о том, что в официальных документах не обойтись без «реализации», «приведения» и тому подобных многобуквенностей.

вещи.

Другими словами, если не придумывать все время новые термины, то постепенно люди начнут говорить на одном языке.

Мне кажется, что сложность типа (б) — это прежде всего синтаксическая, или риторическая, сложность.

Для канцелярии обычно характерно то, что дерево разбора фраз быстро пробивает потолок, и это характерно практически для любых «темных» текстов.

Чтобы сделать тексты более понятными, нам необходимо сделать их структурно простыми.

И все очень просто: в подавляющем большинстве случаев синтаксическая сложность достигается за счет использования одного-единственного приема - действительных причастий.

Попробуйте написать запутанный текст без активных причастий, и вы увидите, что это практически невозможно.

Либо ваши результаты будут совершенно абсурдными, либо ваши предложения обязательно станут короче и понятнее.

Тезис о том, что русские люди не употребляют в разговорной речи причастия и деепричастия, стар как мир.

Это не совсем правильно - я знаю людей, употребляющих в своей речи причастия и деепричастия, употребляю их сам - но нет сомнения, что, прежде всего, это свойство письменности и следствие попытки писать на Русский как Цицерон (или один из греков, скопированный народом, начавшим второе южнославянское влияние).

Я не говорю, что это единственно правильный способ оценить понятность текста, но я почти уверен, что количество активных причастий выявит сложный русский текст, как и любой другой однофакторный показатель.

Для грубой проверки я взял пять текстов: «Капитанская дочка», «Война и мир», отдельный эпилог к знаменитой своей понятливостью «Войне и миру», «Классические и неклассические идеалы рациональности» Мераба Мамардашвили.

(современный философский текст русскоязычного автора) и федеральный закон «Об образовании в Российской Федерации».

Я разделил тексты на предложения и с помощью Python 3 + pymorphy2 посчитал среднее количество активных причастий в каждом из них.

Результат был предсказуем, но все же красноречив:

Простой Способ Оценить Разборчивость Текста На Русском Языке

Предлагаемый в посте сервис дает следующие результаты:

С полным текстом «Войны и мира» он с двух попыток справиться не смог — было бы интересно узнать, что там происходит. Мы видим, что порядок в ранжировании тот же, но если измерять причастиями, то разница между Законом об образовании и «Капитанской дочуркой», а также между эпилогом «Войны и мира» и текстом Мамардашвили оказывается быть выше.

За абсолютные значения не ручаюсь, но подозреваю, что текст Мамардашвили сложнее текста Толстого.

Если посмотреть на это с другой стороны, то окажется, что текст Мамардашвили самый сложный из всех.

Сложность слов можно рассчитать не только по их длине, но и по встречаемости в текстах.

Редкое слово = сложное.

Чтобы измерить редкость слов, я взял данные о частоте, опубликовано на сайте НКРК , и для каждого текста я сделал массив, где каждому слову соответствовало число = 1/вхождение (т. е.

редкость слова).

В таблице НКР самые редкие слова имеют частоту 3, поэтому если слова не было в таблице, оно получало редкость 1/2. Затем я подсчитал среднюю словарную редкость для всех текстов.

В этом рейтинге «Война и мир» полностью обогнала эпилог (французского нет), а еще выше оказались «Капитанская дочка» (много нетривиальных написаний), «Закон об образовании» и с отрывом «Идеалы».

Это немного кривоватый результат, но он показывает, насколько специфичен текст Мамардашвили.

Если перемножить данные о причастиях и данные о словах, то получим следующий рейтинг, который, на мой взгляд, очень содержателен:

Простой Способ Оценить Разборчивость Текста На Русском Языке

Теги: #простой язык #понятный язык #тесты на читаемость #читаемость #Семантика #Открытые данные