Библиотека Конгресса Продолжает Пытаться Архивировать Все Твиты За 2006-2012 Годы.

Два года назад директор по связям с общественностью Библиотеки Конгресса США объявлено о плане заархивировать весь Твиттер с марта 2006 года.

Уже на тот момент (март 2010 года) это был очень большой объем: тогда в Твиттере публиковалось 55 миллионов сообщений в день, а общий размер базы данных с момента основания Твиттера Размер сайта измерялся в терабайтах.

Но это были всего лишь цветы.

К лету 2012 года трафик Twitter вырос до 400 миллионов сообщений в день, а Библиотека Конгресса так и не запустила обещанный архив с полнотекстовым поиском.

В связи с этим некоторые начали сомневаться в том, что библиотекари способны справиться с этой задачей.

На прошлой неделе ходили слухи, что они тихо отказался от амбициозного проекта .

На самом деле это не так.

Журналисты Nieman Journalism Lab сняли интервью Дженнифер Гэвин, руководитель проекта архивирования Twitter в Библиотеке Конгресса.

Она настаивает на том, что планы все еще в силе, но «хороший библиотекарь никогда не торопится», то есть они не намерены предоставлять свои услуги такими же темпами, как Twitter. Конечно, технически задача оказалась гораздо сложнее, чем казалось сначала.

«Процесс разработки технических спецификаций все еще продолжается, но мы гораздо ближе к завершению», — сказал Гэвин.

«Я не могу назвать конкретную дату, когда мы будем готовы объявить об этом официально».

Сейчас определяются критерии того, как сортировать исходные данные: по ключевым словам, по времени и т. д. Разработчики еще не решили, каким должен быть пользовательский интерфейс системы.

«В прошлом году мы начали частично получать материалы из Twitter. Теперь мы получаем его почти ежедневно.

Это очень большие объемы данных», — говорит Гэвин.

Также существует шестимесячное эмбарго на архивирование последних твитов.

По условиям договора с компанией созданная база данных должна быть доступна только для некоммерческого внутрибиблиотечного использования и сохранения.

Система будет доступна только зарегистрированным посетителям библиотеки с читательским билетом.

Теги: #Библиотека Конгресса #Twitter #архив твитов #Поисковые технологии

Вместе с данным постом часто просматривают: