Профессор Ли Джайлс из Колледжа информационных технологий Пенсильванского университета большую часть своей карьеры посвятил разработке поисковых систем для научных статей, чтобы академическое сообщество могло легко получить доступ к материалам.
Недавно профессор опубликовал первое в своем роде исследование, оценивающее количество доступных научных статей в Интернете.
Работа «Количество научных документов в общедоступной сети» опубликовано в майском выпуске PLoS ONE и процитировано в журнале Nature. В работе учитываются только англоязычные документы с учетом пересечения в двух крупнейших специализированных поисковых системах: Google Scholar и Microsoft Academic Search. К научным документам относятся публикации в журналах и доклады на конференциях, диссертации и тезисы, книги, технические отчеты и рабочие документы (предварительные варианты научных статей).
Статистические методы показали, что в Интернете доступно не менее 114 миллионов научных документов на английском языке, из них около 100 миллионов — через Google Scholar. Не менее 27 миллионов документов (24%) находятся в открытом доступе.
Авторы адаптировали свою работу на основе метода двойного отлова, который обычно используется в экологии для оценки размера популяций животных.
Там он предполагает отлов определенного количества животных, которых метят и выпускают на волю.
Затем осуществляется повторная поимка на том же участке.
Ученые подсчитывают процент окольцованных животных во второй выборке – и делают приблизительную оценку общей численности популяции по простой формуле.
Исследования Джайлза также имеют практическое значение для него как для разработчика.
Еще в 1997 году он и его коллеги выпустили открытую поисковую систему CiteSeer для научных документов, в основном в области информатики.
При этом поисковая система учитывала цитаты и ссылки в документах для построения индекса на основе ранжирования.
Считается, что это первая система автоматического индексирования цитирования, предшественник таких инструментов, как Google Scholar и Microsoft Academic Search. В 2008 году вышла новая версия CiteSeerX, в которой тематика была расширена до физики, экономики, медицины и других научных областей.
Джайлз пытается оценить, какая инфраструктура необходима для индексации документов в каждой отрасли.
Джайлз подчеркивает тот факт, что 24% всех документов находятся в свободном доступе в Интернете в виде прямых ссылок на документы через Google Scholar (в информатике процент свободно доступных документов составляет 50%).
Профессор также отмечает, что документы в открытом доступе цитируются чаще и имеют больший вес.
Теги: #ученый Google #Microsoft Academic Search #научные документы #метод двойного покрытия #CiteSeer #CiteSeerX #Поисковые технологии
-
Как Создать Виртуальный Жесткий Диск?
19 Oct, 24 -
С Днем Рождения, Аарон Шварц
19 Oct, 24 -
Лжец И Говорящий Правду
19 Oct, 24 -
Lipstick.com — «Желтый» Аналог Digg
19 Oct, 24