По сути, то, что опубликовано ниже, является моим комментарием к публикации.
«Что такое «Чистый русский» с технологической точки зрения.
Давайте посмотрим на показатели читаемости текста».
.
Так как не могу оставлять комментарии, пишу «Песочница» .
Критерии оценки понятности текстов, о которых шла речь в посте, основаны на практически нулевом знании языка, на котором эти тексты написаны: достаточно знать, как он делится на слова и предложения.
Такой подход удобен с точки зрения простоты расчета, но не позволяет использовать много актуальных данных.
Мне кажется, в случае с русским языком очевидно, что еще можно использовать, и эти данные легко доступны.
На мой взгляд, имеет смысл разделить непонятность на два типа: а) глубокая непонятность (когда невозможно разобрать написанное); (б) неясность, связанная со сложностью.
Непонятность типа (а), которая пронизывает каждый второй, если не каждый, официальный документ, связана с тем, что люди просто не умеют выражать свои мысли.
То, что кажется ясным в голове и как-то удается объяснить «на словах», оказывается невозможным перенести на бумагу: повороты не замыкаются, анафоры переплетаются, эссе объединяет вещи, которым лучше не быть вместе, и скоро.
В чистом случае автоматически отличить это от обычного текста сложно: зачастую даже людям, читающим текст поверхностно, кажется, что это более-менее ничего, а потом оказывается, что это какой-то водоворот. Причем автоматически исправить это невозможно: сначала надо сесть у автора и долго спрашивать его, что же он на самом деле имел в виду.
Но, к счастью, эта непонятность почти всегда влечет за собой непонятность типа (б), так что, по крайней мере, можно идентифицировать непонятные тексты.
Неясность = сложность подразумевает, что люди используют какие-то нетривиальные языковые средства, которые плохо понимаются без образования и/или значительных усилий.
И здесь мы сталкиваемся с косвенным характером традиционных показателей.
Длинных предложений, конечно, лучше избегать, но длинное предложение само по себе не является синонимом темноты: простое перечисление может сделать предложение длинным, не обязательно делая его непонятным.
Использование длинных слов также не делает текст заведомо непонятным.
В конце концов, технический язык никто не отменял, и передать все тонкости простыми словами невозможно, не говоря уже о том, что в официальных документах не обойтись без «реализации», «приведения» и тому подобных многобуквенностей.
вещи.
Другими словами, если не придумывать все время новые термины, то постепенно люди начнут говорить на одном языке.
Мне кажется, что сложность типа (б) — это прежде всего синтаксическая, или риторическая, сложность.
Для канцелярии обычно характерно то, что дерево разбора фраз быстро пробивает потолок, и это характерно практически для любых «темных» текстов.
Чтобы сделать тексты более понятными, нам необходимо сделать их структурно простыми.
И все очень просто: в подавляющем большинстве случаев синтаксическая сложность достигается за счет использования одного-единственного приема - действительных причастий.
Попробуйте написать запутанный текст без активных причастий, и вы увидите, что это практически невозможно.
Либо ваши результаты будут совершенно абсурдными, либо ваши предложения обязательно станут короче и понятнее.
Тезис о том, что русские люди не употребляют в разговорной речи причастия и деепричастия, стар как мир.
Это не совсем правильно - я знаю людей, употребляющих в своей речи причастия и деепричастия, употребляю их сам - но нет сомнения, что, прежде всего, это свойство письменности и следствие попытки писать на Русский как Цицерон (или один из греков, скопированный народом, начавшим второе южнославянское влияние).
Я не говорю, что это единственно правильный способ оценить понятность текста, но я почти уверен, что количество активных причастий выявит сложный русский текст, как и любой другой однофакторный показатель.
Для грубой проверки я взял пять текстов: «Капитанская дочка», «Война и мир», отдельный эпилог к знаменитой своей понятливостью «Войне и миру», «Классические и неклассические идеалы рациональности» Мераба Мамардашвили.
(современный философский текст русскоязычного автора) и федеральный закон «Об образовании в Российской Федерации».
Я разделил тексты на предложения и с помощью Python 3 + pymorphy2 посчитал среднее количество активных причастий в каждом из них.
Результат был предсказуем, но все же красноречив:
Предлагаемый в посте сервис дает следующие результаты:
С полным текстом «Войны и мира» он с двух попыток справиться не смог — было бы интересно узнать, что там происходит. Мы видим, что порядок в ранжировании тот же, но если измерять причастиями, то разница между Законом об образовании и «Капитанской дочуркой», а также между эпилогом «Войны и мира» и текстом Мамардашвили оказывается быть выше.
За абсолютные значения не ручаюсь, но подозреваю, что текст Мамардашвили сложнее текста Толстого.
Если посмотреть на это с другой стороны, то окажется, что текст Мамардашвили самый сложный из всех.
Сложность слов можно рассчитать не только по их длине, но и по встречаемости в текстах.
Редкое слово = сложное.
Чтобы измерить редкость слов, я взял данные о частоте, опубликовано на сайте НКРК , и для каждого текста я сделал массив, где каждому слову соответствовало число = 1/вхождение (т. е.
редкость слова).
В таблице НКР самые редкие слова имеют частоту 3, поэтому если слова не было в таблице, оно получало редкость 1/2. Затем я подсчитал среднюю словарную редкость для всех текстов.
В этом рейтинге «Война и мир» полностью обогнала эпилог (французского нет), а еще выше оказались «Капитанская дочка» (много нетривиальных написаний), «Закон об образовании» и с отрывом «Идеалы».
.
Это немного кривоватый результат, но он показывает, насколько специфичен текст Мамардашвили.
Если перемножить данные о причастиях и данные о словах, то получим следующий рейтинг, который, на мой взгляд, очень содержателен:
Теги: #простой язык #понятный язык #тесты на читаемость #читаемость #Семантика #Открытые данные
-
Живите Жизнью С Дешевыми Планшетами
19 Oct, 24 -
Маленький Секрет Художника Алексея Леонова
19 Oct, 24 -
Интернет-Магазин Будущего
19 Oct, 24