Мир и любовь коллегам-айтишникам-гуманитариям! Я решил рассказать о том, как ИТ используются (с пользой!) в сфере гуманитарных наук.
Миллион книг — так называется проект Google по оцифровке книг, результаты которого каждый может увидеть в Google Книгах.
В 2007 году миллион книг был успешно преобразован в электронный формат. Теперь новая цель Google — оцифровать 30 миллионов книг.
И перед учеными-гуманитариями встал новый вопрос: что теперь делать со всем этим морем литературы? Что делать с миллионами книг, издаваемых в наши дни? Во-первых, понятно, что прочитать миллион книг невозможно.
Во-вторых, понятно, что это должен читать гуманист. Ведь коренное отличие гуманиста от естествоиспытателя заключается в обязанности осознавать весь объем художественной литературы.
Вы, возможно, не читали «Калевалу», но должны представить, о чем она и как она есть.
Что делать? Конечно, призовите на помощь новые технологии.
Прежде всего, интеллектуальный анализ данных.
С этой целью Северо-Западный университет и Университет Иллинойса запустили проект МОНАХ .
MONK состоит из базы данных и программ, которые обнаруживают повторяющиеся закономерности в текстах.
Программа MorphAdorner отслеживает связи между отдельными словами и предложениями, частями речи и лексемами.
При этом также учитывается разнообразие диалектов.
Программа способна к обучению и самообучению, классификации текстов и расчету вероятностей (например, по частоте появления слова в нескольких текстах вычислить вероятность появления текста в следующем).
Таким образом, с помощью этого инструмента можно получить своеобразную ДНК любого текста.
Также можно обнаружить основную лингвистическую закономерность групп текстов, объединенных одним признаком: например, ДНК текстов, написанных женщинами в период с 1790 по 1900 годы, выглядит следующим образом:
А ДНК текстов, написанных мужчинами того же периода, такова:
Сейчас на MONK возлагаются большие надежды.
Например, с его помощью надеются определить авторство сомнительных текстов, узнать год написания текста и даже пол автора.
И конечно – это просто избавляет от необходимости читать миллион книг, чтобы быть в курсе того, что в них написано.
В письменной форме свободно использовался следующий источник: Как не читать миллион книг Таня Клемент и др.
Теги: #Интеллектуальный анализ данных #Чулан
-
Что Для Нас Означает Музыкальное Пиратство?
19 Oct, 24 -
Почта: Мфу На Миллион
19 Oct, 24 -
Chrome 5.0.335.0 (Dev) – Лучше Обойти
19 Oct, 24 -
Уничтожение «Стадного Эффекта»
19 Oct, 24 -
Бинокулярное Зрение И Стереопсис
19 Oct, 24