Пять Эгоистичных Причин Работать Воспроизводимо



Аннотация Итак, мои коллеги-учёные, не спрашивайте, что вы можете сделать для воспроизводимости — спросите, что воспроизводимость может сделать для вас! Здесь я перечислю пять причин, почему воспроизводимость данных окупается в долгосрочной перспективе и представляет личный интерес для каждого амбициозного, ориентированного на карьеру ученого.

Сложное уравнение находится на левой половине доски, еще более сложное уравнение — на правой.

Короткое предложение соединяет два уравнения: «Здесь происходит чудо».

Два математика в глубокой задумчивости.

«Я думаю, тебе следует быть более конкретным на втором этапе», — говорит один другому.



Пять эгоистичных причин работать воспроизводимо

Вот как это выглядит, когда вы пытаетесь понять, как автор прошел путь от большого и сложного набора данных к плотной статье с множеством сложных графиков.

Без доступа к данным и аналитическому коду такой переход можно объяснить только чудом.

А в науке не должно быть чудес.

Способность работать прозрачно и воспроизводимо во многом зависит от эмпатии — поставьте себя на место одного из ваших коллег и спросите: «Сможет ли этот человек получить доступ к моим данным и понять смысл моего анализаЭ» Освоение этих «инструментов» (вставка 1) требует целеустремленности и огромных затрат времени и энергии.

Априори не очевидно, почему выгоды от такого формата работы перевешивают затраты.

Вот некоторые причины, которые обычно приводятся в таких случаях: «Потому что воспроизводимость – это правильно», «Потому что это основа науки!», «Потому что мир стал бы лучше, если бы все работали прозрачно и воспроизводимо!».

Знаете, как для меня звучит это рассуждение? Типа «бла-бла-бла».

Я не считаю эти аргументы несостоятельными.

Просто я не такой уж идеалист: меня не волнует, какой должна быть наука.

Я реалист: я стараюсь сделать все, что в моих силах, исходя из того, как на самом деле работает наука.

И, хотим мы того или нет, наука – это карьерный рост, увеличение импакт-фактора, количества публикаций и количества денег.

Больше, больше, больше.

Так как же воспроизводимость может помочь мне достичь большего как учёному?



Воспроизводимость: зачем она мне?

В этой статье я привожу пять причин, почему такой подход к воспроизводимости окупается в долгосрочной перспективе и отвечает интересам каждого амбициозного, ориентированного на карьеру ученого.



Причина №1: Воспроизводимость помогает избежать катастрофы.

«Как терпят неудачу великие обещания тестирования на рак» — так называлась статья в New York Times летом 2011 года [1], в которой освещалась работа Кита Бэггерли и Кевина Кумбса, двух биостатистиков из T.H. Онкологический центр.

Доктор медицины Андерсон.

Они выявили проблемы в анализе данных о смертности в серии статей ученых из Университета Дьюка, которые оказали большое влияние на исследования рака молочной железы [2].

Проблемы, выявленные Бэггерли и Кумбсом, мог легко заметить любой соавтор статьи еще до ее подачи.

Наборы данных там не такие большие, их легко проверить на обычном ноутбуке.

Не нужно быть гением статистики, чтобы понять, что число пациентов варьируется, метки меняются местами или образцы представлены несколько раз с противоречивыми аннотациями в одном и том же наборе данных.

Почему никто не заметил этих проблем, пока не стало слишком поздно? Потому что данные и анализ не были прозрачными и для их понимания требовались знания судебной биоинформатики [2].

Этот пример мотивирует меня быть более прозрачным и воспроизводимым в моей работе.

Даже незначительные происшествия могут поставить вас в неловкое положение.

Вот пример из моего исследования.

Наши партнеры-экспериментаторы протестировали созданную нами модель пути.

Однако при написании статьи мы столкнулись с серьезным препятствием: как бы мы ни старались, нам не удалось воспроизвести исходную модель пути.

Возможно, изменились данные, может быть, код был другим, а может быть, мы просто не смогли правильно запомнить настройки параметров нашего метода.

Если бы мы опубликовали этот результат, мы не смогли бы продемонстрировать, как мы пришли к заявленной гипотезе на основе исходных данных.

Мы бы опубликовали чудо.

Этот опыт показал мне две вещи.

Прежде всего, проект – это больше, чем красивый результат. Необходимо подробно описать, как был получен этот результат. Кроме того, если заранее подумать о воспроизводимости, это сэкономит время в будущем.

Мы потратили годы своего времени и времени наших партнеров, не имея возможности воспроизвести собственные результаты.

Всего этого можно было бы избежать, если бы мы лучше отслеживали, как данные и анализ меняются с течением времени.



Причина № 2: Воспроизводимость облегчает написание статей.

Прозрачность анализа значительно упрощает написание статей.

Например, в динамическом документе (блок 1) все результаты автоматически обновляются при изменении данных.

Вы можете быть уверены, что ваши цифры, графики и таблицы останутся актуальными.

Кроме того, такая прозрачность анализа более привлекательна, его может прочитать больше людей, и ошибки становится гораздо легче обнаружить.

Вот еще один пример из моей работы.

В другом проекте [3] мы обсуждали с врачом, почему некоторые результаты выживаемости в многоцентровом исследовании оказались не такими, как мы ожидали.

Поскольку все данные и код анализа были нам доступны в удобном для чтения файле, мы смогли изучить проблему самостоятельно.

Просто создав таблицу с переменной, описывающей стадию опухоли, мы смогли выявить проблему: мы ожидали увидеть номера стадий от 1 до 4, а увидели что-то вроде «ХХХ», «Фред» и «999».

.

Люди, предоставившие нам данные, видимо, плохо их вычитали.

Самостоятельно просмотреть данные оказалось гораздо быстрее и проще, чем идти к постдоку, работающему над проектом, и говорить: «Объясните нам это».

Мой соавтор и я слишком заняты, чтобы тратить время на очистку данных низкого уровня, и без хорошо документированного анализа мы не сможем внести свой вклад. Но поскольку у нас были очень прозрачные данные и код, нам потребовалось всего пять минут, чтобы обнаружить ошибку.



Причина №3: Воспроизводимость помогает рецензентам увидеть данные вашими глазами.

Многие из нас любят жаловаться на экспертную оценку.

Чаще всего я слышу: «Рецензенты даже не читали статью и понятия не имеют, что мы на самом деле исследовали».

Это резко контрастирует с моим опытом рецензирования недавней статьи [4], для которой мы сделали данные и документированный код легко доступными для рецензентов.

Один из них предложил внести небольшие изменения в некоторые анализы, и поскольку у него был доступ ко всем данным, он смог напрямую опробовать свои идеи и посмотреть, как изменились результаты.

Рецензент был полностью занят, и единственное, что осталось обсудить, это то, как лучше всего анализировать данные.

Именно так должен быть построен конструктивный обзор.

А это было бы невозможно без прозрачного и воспроизводимого представления нашего анализа.



Причина № 4. Воспроизводимость обеспечивает непрерывность вашей работы.

Я бы удивился, если бы вы раньше не слышали (и, возможно, даже не озвучивали их сами): «Я настолько занят, что не могу вспомнить детали всех своих проектов в деталях» или «Я делал этот анализ».

6 месяцев назад. Я, конечно, не могу вспомнить всех подробностей после такого длительного времени» или «Мой руководитель (ПИ) сказал, что мне следует продолжить проект предыдущего постдока, но тот постдок давно ушел и не сохранил ни скриптов, ни данных».

Подумайте об этом: все эти проблемы можно решить путем документирования и обеспечения доступности данных и кода.

Это особенно важно для старших исследователей, которые работают над сложными долгосрочными проектами.

Как вы можете обеспечить непрерывность работы в вашей лаборатории, если ее ход не документирован в воспроизводимой форме? В своей группе я даже не обсуждаю со студентами результаты, если они плохо документированы.

Нет доказательств воспроизводимости – нет результата!

Причина №5: Воспроизводимость помогает репутации

В нескольких статьях мы предоставили наши данные, код и анализы в виде пакета для Bioconductor [5].

Когда я пришел работать по контракту, я предоставил все эти пакеты как результаты исследований своей лаборатории.

Обычно анализ, представленный таким образом, помогает создать репутацию человека честного и тщательного.

Если когда-либо возникнет проблема с одной из ваших статей, вам будет очень легко защитить свое имя и показать, что вы сообщили обо всем добросовестно.

Недавняя статья, опубликованная в журнале Science, называется «Научные стандарты.

Продвижение культуры открытых исследований» [6] обобщает восемь стандартов и три уровня рекомендаций по воспроизводимости.

Использование таких инструментов, как R и KnitR (Вставка 1), позволит вам легко следовать стандартам самого высокого уровня, что опять-таки хорошо для вашей репутации.

.



Что тебя сдерживает?

Я вас убедил? Вероятно, не.

Вот подборка реакций, которые я часто получаю, когда настаиваю на воспроизводимости (и как я реагирую):

  • «Важен только результат!» Вы неправы.

  • «Я предпочитаю заниматься настоящей наукой, чем приводить в порядок свои данные».

    Если ваши результаты невоспроизводимы, вы вообще не занимаетесь наукой [7].

  • "Занимайтесь своим делом! Я документирую свои данные так, как хочу!» Да, пожалуйста! Существует множество воспроизводимых способов работы [8] — вы можете выбрать любой, который вам нравится.

  • «Excel работает отлично.

    Мне не нужны новомодные R, Python или что-то еще».

    Упомянутый вами инструмент может хорошо работать, если вам нужно внести много правок вручную.

    Но если вы занимаетесь анализом данных, то оптимальное решение — меньше кликов и больше скриптов.

    Представьте, что вам нужно провести простой анализ — например, построить график регрессии — 5 (10, 20) раз.

    Сравните обработку этого вручную с написанием простого цикла, который сделает это за вас.

    А теперь представьте, что вам придется сделать это снова через 3 недели, потому что данные немного изменились.

    В этом случае вам обязательно следует использовать R и Python.

  • «Воспроизводимость — это хорошо, но мой код и данные разбросаны по такому количеству жестких дисков и каталогов, что потребовалось бы слишком много усилий, чтобы собрать все в одном месте».

    Просто подумай о том, что ты только что сказал.

    Отсутствие организации подвергает вас и ваш проект смертельной опасности.

  • «Мы всегда можем отсортировать код и данные после того, как отправим заявку на рассмотрение».

    Мой пример модели пути, приведенный выше, демонстрирует опасности такой стратегии.

    Кроме того, подготовка рукописи может занять много времени, поэтому вы можете даже не вспомнить все детали своего анализа, когда придет время представить результаты.

  • «В моей области исследований очень большая конкуренция, и тратить слишком много времени — это слишком рискованно».

    Именно поэтому вам нужно как можно раньше начать работать над воспроизводимостью, чтобы не тратить зря время в долгосрочной перспективе.



Когда следует беспокоиться о воспроизводимости?

Допустим, я убедил вас, что воспроизводимость и прозрачность в ваших собственных интересах.

Когда стоит начинать беспокоиться? Длинный ответ:

  • перед запуском проекта — потому что вам, возможно, придется изучить такие инструменты, как R или git;
  • пока вы проводите анализ – потому что, если вы будете ждать слишком долго, вы можете потерять много времени, пытаясь вспомнить, что вы делали два месяца назад;
  • когда вы пишете статью – потому что хотите, чтобы ваши цифры, таблицы и рисунки были актуальны;
  • если вы являетесь соавтором статьи – потому что хотите быть уверены, что анализ, представленный в документе с вашим именем, верен;
  • когда вы просматриваете документ — потому что вы не можете судить о результатах, если не знаете, как авторы пришли к ним.

Короткий ответ: всегда!

Достичь культуры воспроизводимости

Кого волнует воспроизводимость и прозрачность? Очевидно, что студенты и постдокты играют важную роль в воспроизводимой работе, потому что чаще всего именно они фактически выполняют работу.

Мой совет — как можно быстрее изучить инструменты воспроизводимости (вставка 1) и использовать их в каждом проекте.

Приложив усилия, вы получите массу преимуществ:

  • вы будете совершать меньше ошибок и легче исправлять имеющиеся;
  • вы будете более эффективны и будете развиваться гораздо быстрее в долгосрочной перспективе;
  • Если вы чувствуете, что ваш руководитель не очень вовлечен в процесс, сделайте анализ более ясным, чтобы стимулировать его к более активному участию.

Ведущие исследователи, руководители групп и коллективов, профессора — вам предстоит создать «культуру воспроизводимости» поверх технической базы, которую представляют ваши студенты и постдоки.

В своей лаборатории я сделал воспроизводимость ключевым элементом статей, которые раздаю новым студентам [9].

Если вы хотите поддержать своих коллег, просите аналитическую документацию каждый раз, когда член команды показывает вам работу.

Не нужно вдаваться в подробности – беглый взгляд покажет, насколько качественно он сделан.

Что действительно улучшило воспроизводимость в моей собственной лаборатории, так это требование, чтобы перед тем, как один из членов команды представил предложение, коллега, не участвующий в проекте, попытался провести анализ самостоятельно и воспроизвести наши результаты.

Если вы не создадите культуру воспроизводимости в своей лаборатории, вы упустите огромные научные преимущества, которые она принесет в долгосрочной перспективе.

Наука с каждым днем становится все более прозрачной и воспроизводимой.

Вы можете стать лидерами в этом процессе! Продвинутые законодатели моды! Давай, я знаю, ты тоже этого хочешь.




Коробка 1 На самом низком уровне воспроизводимость просто означает избежание ошибок новичка.

Организуйте свой проект, дайте осмысленные имена файлам и каталогам, а также храните данные и код в одном месте для резервного копирования.

Не разбрасывайте данные по разным серверам, ноутбукам и жестким дискам.

Чтобы достичь следующих уровней воспроизводимости, вам необходимо изучить некоторые инструменты вычислительной воспроизводимости [8].

В целом, воспроизводимость улучшается за счет меньшего количества кликов и вставок, а также большего количества сценариев и кодирования.

Например, проведите анализ в р или Питон и задокументируйте это с помощью вязатьR или IPython .

Эти инструменты помогают объединять описательный текст с аналитическим кодом в динамические документы, которые можно автоматически обновлять при каждом изменении данных или кода.

Затем научитесь использовать систему контроля версий, такую как мерзавец , на общедоступной платформе, такой как GitHub .

Наконец, если вы хотите стать профессионалом, научитесь использовать докеры , что сделает ваш анализ непрерывным и легко переносимым в другие системы.






Благодарности

Я разработал эгоистичный подход к воспроизводимости во время «постдокторского мастер-класса по воспроизводимости», который проводился в Институте Гердона в Кембридже вместе с Гордоном Брауном (Кембриджский институт CRUK) и Стивеном Дж.

Гленом (DAMTP Кембридж).

Я благодарю их за их вклад. Все материалы доступны на GitHub по адресу связь , и мой отчет записан в мой блог .

Список источников

  1. Колата Г.

    Как рухнули блестящие надежды в области тестирования на рак.

    Нью-Йорк Таймс.

    2011. http://www.nytimes.com/2011/07/08/health/research/08genes.html?_r=0 .

  2. Бэггерли К.

    А.

    , Кумбс К.

    Р.

    Получение химиочувствительности из клеточных линий: судебная биоинформатика и воспроизводимые исследования в высокопроизводительной биологии.

    Энн Аппл Стат. 2009;3:1309–34. https://projecteuclid.org/euclid.aoas/1267453942 .

  3. Мартинс Ф.

    К.

    , Сантьяго И.

    , Тринь А.

    , Сиань Дж.

    , Го А.

    , Саял К.

    и др.

    Комбинированный имиджевый и геномный анализ серозного рака яичников высокой степени злокачественности показывает потерю PTEN как распространенное движущее событие и прогностический классификатор.

    Геном Биол.

    2014;15:526. https://genomebiology.biomedcentral.com/articles/10.1186/s13059-014-0526-8 .

  4. Шварц Р.

    Ф.

    , Нг ККИ, Кук С.

    Л.

    , Ньюман С.

    , Темпл Дж.

    , Пискорц А.

    М.

    и др.

    Пространственная и временная гетерогенность при серозном раке яичников высокой степени злокачественности: филогенетический анализ.

    ПЛоС Мед. 2015;12:1001789. http://journals.plos.org/plosmedicine/articleЭid=10.1371/journal.pmed.1001789 .

  5. Кастро МАА, Флетчер М.

    , Марковец Ф.

    , Мейер К.

    Данные об экспрессии генов в клетках рака молочной железы при нарушении передачи сигналов FGFR2. Экспериментальный пакет BioConductor. http://bioconductor.org/packages/release/data/experiment/html/Fletcher2013a.html .

    По состоянию на 27 ноября 2015 г.

  6. Носек Б.

    А.

    , Альтер Г.

    , Бэнкс Г.

    К.

    , Борсбум Д.

    , Боуман С.

    Д.

    , Бреклер С.

    Дж.

    и др.

    Научные стандарты.

    Продвижение культуры открытых исследований.

    Наука.

    2015;348:1422–5. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4550299 .

  7. Уотсон М.

    Когда «открытая наука» станет просто «наукой»? Геном Биол.

    2015;16:101.

  8. Пикколо С.

    Р.

    , Ли А.

    Б.

    , Фрэмптон М.

    Б.

    Инструменты и методы вычислительной воспроизводимости.

    2015. http://biorxiv.org/content/early/2015/07/17/022707 .

    По состоянию на 27 ноября 2015 г.

  9. Марковец Ф.

    Вы не у меня работаете; Я работаю с вами.

    PLoS Компьютерная Биол.

    2015;11:1004387. http://journals.plos.org/ploscompbiol/articleЭid=10.1371/journal.pcbi.1004387 .




    Твиттер и блог Флориан в Твиттере @markowetzlab и в своем блоге: http://scientificbsides.wordpress.com/ .

Теги: #python #git #github #Лайфхаки для гиков #GTD #работа с данными #воспроизводимость #knitR
Вместе с данным постом часто просматривают: