Сентябрь прошлого года Я сообщил о намерении сотрудников открытого вики-проекта «ВСЕ» начать восстановление данных, удаленных в русской Википедии.
До этого момента удаленные статьи, картинки, шаблоны и некоторые интересующие страницы были загружены в независимые репозитории.
Поскольку ALL — энциклопедический проект, администраторы сохраняют там не просто спам и саморекламу пользователей контактов, а статьи о реальных людях, событиях и компаниях.
Начнем с того, что отбор статей производился по определенному алгоритму, исключающему явный вандализм.
Например, многие статьи о вымышленной вселенной восстановлены.
По пояснениям программистов бота, алгоритм был следующий.
* Статьи с таким заголовком на данный момент нет в Википедии (т.е.
она не воссоздавалась как отдельная статья - только как редирект); * В комментариях к удалению страниц отсутствует одно из ключевых слов типа «вандализм» или «нарушение авторских прав», что указывает на то, что страница, скорее всего, не имеет никакой ценности.
Бот работал прошлой осенью, отбирая список примерно из 100 тысяч статей, отвечающих этим условиям.
Бот для загрузки был наконец запущен в начале этого года.
Заполнил ВСЕ статьями - получил более 2 тысяч удаленных статей из русской Википедии.
На подходе еще как минимум несколько тысяч интересных статей.
Полный их список вы можете прочитать по ссылке выше.
В то же время эти статьи не исчерпывают уникальный контент ВСЕХ: там много статей о люди , школы и, например, знаковые песни .
Статьи имеют шаблоны, категории и изображения.
Теги: #Краудсорсинг #статьи #Википедия #вики #восстановление статей
-
Новый Компьютерный Век: Инфраструктура
19 Oct, 24 -
Стартовал Конкурс На Лучшие Обои
19 Oct, 24 -
Февральский Номер Журнала Macpages
19 Oct, 24 -
Зарядка Электромобилей С Поверхности Дороги
19 Oct, 24 -
О Стартапах На Основе Личного Опыта
19 Oct, 24