Миллион Книг И Как Их Не Читать

Мир и любовь коллегам-айтишникам-гуманитариям! Я решил рассказать о том, как ИТ используются (с пользой!) в сфере гуманитарных наук.

Миллион книг и как их не читать

Миллион книг — так называется проект Google по оцифровке книг, результаты которого каждый может увидеть в Google Книгах.

В 2007 году миллион книг был успешно преобразован в электронный формат. Теперь новая цель Google — оцифровать 30 миллионов книг.

И перед учеными-гуманитариями встал новый вопрос: что теперь делать со всем этим морем литературы? Что делать с миллионами книг, издаваемых в наши дни? Во-первых, понятно, что прочитать миллион книг невозможно.

Во-вторых, понятно, что это должен читать гуманист. Ведь коренное отличие гуманиста от естествоиспытателя заключается в обязанности осознавать весь объем художественной литературы.

Вы, возможно, не читали «Калевалу», но должны представить, о чем она и как она есть.

Что делать? Конечно, призовите на помощь новые технологии.

Прежде всего, интеллектуальный анализ данных.

С этой целью Северо-Западный университет и Университет Иллинойса запустили проект МОНАХ .

MONK состоит из базы данных и программ, которые обнаруживают повторяющиеся закономерности в текстах.

Программа MorphAdorner отслеживает связи между отдельными словами и предложениями, частями речи и лексемами.

При этом также учитывается разнообразие диалектов.

Программа способна к обучению и самообучению, классификации текстов и расчету вероятностей (например, по частоте появления слова в нескольких текстах вычислить вероятность появления текста в следующем).

Таким образом, с помощью этого инструмента можно получить своеобразную ДНК любого текста.

Также можно обнаружить основную лингвистическую закономерность групп текстов, объединенных одним признаком: например, ДНК текстов, написанных женщинами в период с 1790 по 1900 годы, выглядит следующим образом:

Миллион книг и как их не читать

А ДНК текстов, написанных мужчинами того же периода, такова:

Сейчас на MONK возлагаются большие надежды.