Сколько Научных Статей В Интернете?

Профессор Ли Джайлс из Колледжа информационных технологий Пенсильванского университета большую часть своей карьеры посвятил разработке поисковых систем для научных статей, чтобы академическое сообщество могло легко получить доступ к материалам.

Недавно профессор опубликовал первое в своем роде исследование, оценивающее количество доступных научных статей в Интернете.

Работа «Количество научных документов в общедоступной сети» опубликовано в майском выпуске PLoS ONE и процитировано в журнале Nature. В работе учитываются только англоязычные документы с учетом пересечения в двух крупнейших специализированных поисковых системах: Google Scholar и Microsoft Academic Search. К научным документам относятся публикации в журналах и доклады на конференциях, диссертации и тезисы, книги, технические отчеты и рабочие документы (предварительные варианты научных статей).

Статистические методы показали, что в Интернете доступно не менее 114 миллионов научных документов на английском языке, из них около 100 миллионов — через Google Scholar. Не менее 27 миллионов документов (24%) находятся в открытом доступе.



Сколько научных статей в Интернете?

Авторы адаптировали свою работу на основе метода двойного отлова, который обычно используется в экологии для оценки размера популяций животных.

Там он предполагает отлов определенного количества животных, которых метят и выпускают на волю.

Затем осуществляется повторная поимка на том же участке.

Ученые подсчитывают процент окольцованных животных во второй выборке – и делают приблизительную оценку общей численности популяции по простой формуле.

Исследования Джайлза также имеют практическое значение для него как для разработчика.

Еще в 1997 году он и его коллеги выпустили открытую поисковую систему CiteSeer для научных документов, в основном в области информатики.

При этом поисковая система учитывала цитаты и ссылки в документах для построения индекса на основе ранжирования.

Считается, что это первая система автоматического индексирования цитирования, предшественник таких инструментов, как Google Scholar и Microsoft Academic Search. В 2008 году вышла новая версия CiteSeerX, в которой тематика была расширена до физики, экономики, медицины и других научных областей.

Джайлз пытается оценить, какая инфраструктура необходима для индексации документов в каждой отрасли.



Сколько научных статей в Интернете?

Джайлз подчеркивает тот факт, что 24% всех документов находятся в свободном доступе в Интернете в виде прямых ссылок на документы через Google Scholar (в информатике процент свободно доступных документов составляет 50%).

Профессор также отмечает, что документы в открытом доступе цитируются чаще и имеют больший вес.



Сколько научных статей в Интернете?

Теги: #ученый Google #Microsoft Academic Search #научные документы #метод двойного покрытия #CiteSeer #CiteSeerX #Поисковые технологии

Вместе с данным постом часто просматривают: