Миллион Книг И Как Их Не Читать

Мир и любовь коллегам-айтишникам-гуманитариям! Я решил рассказать о том, как ИТ используются (с пользой!) в сфере гуманитарных наук.



Миллион книг и как их не читать

Миллион книг — так называется проект Google по оцифровке книг, результаты которого каждый может увидеть в Google Книгах.

В 2007 году миллион книг был успешно преобразован в электронный формат. Теперь новая цель Google — оцифровать 30 миллионов книг.

И перед учеными-гуманитариями встал новый вопрос: что теперь делать со всем этим морем литературы? Что делать с миллионами книг, издаваемых в наши дни? Во-первых, понятно, что прочитать миллион книг невозможно.

Во-вторых, понятно, что это должен читать гуманист. Ведь коренное отличие гуманиста от естествоиспытателя заключается в обязанности осознавать весь объем художественной литературы.

Вы, возможно, не читали «Калевалу», но должны представить, о чем она и как она есть.

Что делать? Конечно, призовите на помощь новые технологии.

Прежде всего, интеллектуальный анализ данных.

С этой целью Северо-Западный университет и Университет Иллинойса запустили проект МОНАХ .

MONK состоит из базы данных и программ, которые обнаруживают повторяющиеся закономерности в текстах.

Программа MorphAdorner отслеживает связи между отдельными словами и предложениями, частями речи и лексемами.

При этом также учитывается разнообразие диалектов.

Программа способна к обучению и самообучению, классификации текстов и расчету вероятностей (например, по частоте появления слова в нескольких текстах вычислить вероятность появления текста в следующем).

Таким образом, с помощью этого инструмента можно получить своеобразную ДНК любого текста.

Также можно обнаружить основную лингвистическую закономерность групп текстов, объединенных одним признаком: например, ДНК текстов, написанных женщинами в период с 1790 по 1900 годы, выглядит следующим образом:

Миллион книг и как их не читать

А ДНК текстов, написанных мужчинами того же периода, такова:

Миллион книг и как их не читать

Сейчас на MONK возлагаются большие надежды.

Например, с его помощью надеются определить авторство сомнительных текстов, узнать год написания текста и даже пол автора.

И конечно – это просто избавляет от необходимости читать миллион книг, чтобы быть в курсе того, что в них написано.

В письменной форме свободно использовался следующий источник: Как не читать миллион книг Таня Клемент и др.

Теги: #Интеллектуальный анализ данных #Чулан

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.