Мы часто говорим о проблемах, лежащих на стыке той или иной классической науки и анализа данных.
В сегодняшнем докладе эта идеология представлена из первых рук — большую часть доклада читает учёный, а программист рассказывает о конкретных методах и инструментах.
Под катом — расшифровка и основная часть слайдов.
Дмитрий Алексеев индибиом , директор по исследованиям и разработкам биомедицинского холдинга «Атлас»: - Вообще-то я микроб.
Это необычно слышать, потому что вы привыкли, что люди вам что-то рассказывают. А я микроб.
Нас много живет. И в тебе тоже.
Цифра приблизительная – по 100 триллионов на каждого.
Вы можете умножить это на количество посетителей.
Нас здесь сегодня так много.
Я пришел рассказать вам кое-что важное о нас, микробах, потому что в последнее время вы не обращаете на это особого внимания, и ни к чему хорошему это не приведет. Когда я закончу, важно, чтобы у вас в голове были две вещи: что, во-первых, я молодец, а во-вторых, что доступные вам прямо сейчас данные с вашего ноутбука могут рассказать вам еще больше о том, насколько мы интересны.
Когда нас, микробов, много, нас называют микробиотой.
И теперь в вашей человеческой медицине есть большая надежда, что в ближайшем будущем вы снова сможете шалить, пить, курить и плохо есть, а мы, микробы, спасем вас обратно.
И вообще, это сейчас называется тераностикой – когда мы диагностируем то, что у тебя болит, и это тоже лечим.
Мы, микробы, можем все.
И понятно, что мы прожили на этой планете гораздо дольше вас.
С того самого момента, как ты появился, будучи еще маленьким червячком, мы уже вселились в тебя.
И важно понимать, что все ваши органы, особенно кишечник, о котором мы поговорим, они развились вместе с моими предками, хотя, по правде говоря, у меня, как у микроба, предков нет. Мы разделились пополам.
Чуть позже вы увидите этот чудесный процесс.
Если бы вы захотели узнать, стоит ли изучать микробы, и в 2014 году вы заглянули бы в базу публикаций – это такая логарифмическая шкала – вы бы увидели, что они изучают микробы.
Тысячи интересных статей в год, люди пишут много интересного и об иммунитете и микробах, и о раке и микробах, и вообще о связи микробов или микробиоты, особенно кишечника, с заболеваниями.
Горячая тема.
И эта горячая тема — постгеномная эра.
После того, как люди рассчитали, рассчитали и прочитали геном человека, они применили те же технологии к микробам.
И мы выяснили, что нас гораздо больше, чем считалось ранее.
Они изучают нас, потому что у нас есть ДНК.
Вы удивитесь, но моя ДНК такая же, как ваша.
Я просто иногда молча думаю про себя, что у меня та же ДНК, что и у людей.
Это потрясающе.
Ведь мы супер-разные, но всё написано нулями и единицами.
Хотя это может быть вам очень знакомо.
Почему? Потому что вы делаете все эти приложения, как полезные, так и бесполезные.
Как полезное применение нулей и единиц, так и бесполезное.
Здесь главное правильно составить порядок.
Хотя я уверен, что мой порядок никто не строил, за меня сработала эволюция.
Те из моих братьев, которые были сильнее, мои предки, просто остались.
Те, что как-то менялись неправильно, они исчезли.
Это то, что называется отбором.
А совокупность наших генов называется метагеном.
Это то, что представляется вам, человеку, который анализирует данные, прежде всего в виде необработанных данных.
И эти гены можно найти в любой среде.
Даже в ядерном реакторе или на космической станции есть мои друзья-микробы, и у них тоже есть гены, и они действуют по тем же правилам.
Если заглянуть в кишечник, то можно увидеть разнообразие, то есть таких ребят, как я, очень много.
Но есть и другие виды.
На них другая кепка, другие очки, кто в кроссовках, кто в шортах.
В каждом кишечнике обитает примерно от 300 до 1000 видов этих ребят. И это удивительно: если посчитать так, то толком не поймём, каких клеток больше: меня, то есть микробов, или ваших собственных.
Но мы все умещаемся в эти 1,5 кг сухого веса, которые есть у вас в кишечнике.
Почему? Потому что нас действительно меньше.
Если вы не догадались, я теперь всего лишь увеличенная копия микроба.
Поэтому количество генов, некоторых функциональных участков ДНК, способных что-то делать, оказывается на пару порядков выше, так что на самом деле я могу гораздо больше, чем вы, и я — ваша эволюционная адаптация, чтобы вы может вести себя плохо.
Ты никогда не изменишь свой генетический код, и когда ты начинаешь есть плохую еду, я в первую очередь учусь к ней приспосабливаться.
Сейчас я покажу вам прямо на данных, как я это делаю.
Хорошая фотография, очень старая.
В то время никто особо не читал о генах.
Некоторые болезни написаны на английском языке, уровень заболеваемости падает. Это все инфекционные заболевания, причина которых такие ребята, как я, но выглядят они говно.
Другие заболевания связаны с вашей иммунной системой.
Например, диабет или астма.
Что-то с ней не так.
И это происходит прямо сейчас.
У человечества меньше инфекционных заболеваний, но больше болезней, связанных с иммунитетом.
Это интересно.
Что произошло, почему число инфекционных заболеваний начало снижаться? Потому что вы изобрели антибиотики.
Антибиотики — это такие мелочи, которые мешают мне размножаться или двигаться, и тогда я умираю.
И вы принимаете эти антибиотики, чтобы избавиться от плохих парней, но страдают все, потому что мы устроены почти одинаково, нет специфического лекарства для отдельной бактерии, для отдельного микроба.
И поэтому умерли и хорошие парни – страдает иммунитет. Я изучаю вас, люди, последние 10 лет: кандидат биологических наук - это значит, что я изучаю жизнь.
Все это время я думаю, что иммунная система создана у человека для того, чтобы разобраться, какие микробы там есть, чтобы правильно их поддерживать.
И происходит это в основном в кишечнике, и опять же по количеству клеток.
То есть вы очень хорошо умеете контролировать, кто там должен быть.
Вот тоже интересная история, пока не имеющая отношения к данным.
С детства все зависит от того, каким ты родился.
Если это кесарево сечение, то первые микробы попадают в ваш кишечник с кожи матери.
Если это изначальный, исконно человеческий путь рождения, то микробиота вагинальная, и получается, что за это время наш кишечник привыкает становиться правильным, расти, исходя из того, что изначально микробы от матери передаются от нее.
влагалище.
Если они из кожи матери, то это совсем другие микробы и дела начинают идти не так.
У детей это часто выражается, например, в аллергии.
Это подтверждают существующие рекомендации: если было кесарево сечение, то после этого ребенка обволакивают материнским соком, а затем в кишечник попадают нужные микробы, и тогда все происходит правильно.
У детей эти микробы сильно изменяются: то один, то другой.
Они болеют, и иммунная система к этому привыкает. В какой-то момент мы думаем, что окно возможностей закрывается.
Вы запоминаете все хорошее и все плохое благодаря своей иммунной системе.
Это супервычислительная машина.
Она может узнать во мне микроба по одному маленькому элементу, просто по шляпке, и сказать, свой ли я или чужой.
Поэтому, если вы будете пить всякие кефиры с живыми бактериями, они останутся у вас, но до трех-пяти лет нигде не написано, что они ваши собственные.
Можно подумать, что у тех детей, которые рождаются сейчас, уже заложен тот же код, потому что они с детства пьют эти синтетические бактерии.
Возможно, это место для суперхакерских атак на будущих людей, ведь у них всех записан код одной и той же синтетической бактерии.
Вы можете сами назвать компанию, которая этим занимается.
У взрослых наше сочетание, наше соотношение примерно такое же, как то, что вы едите.
Вот как это работает. Зачем вам столько разных? Потому что мы специалисты в разных вещах.
Они являются экспертами в переваривании различных полимеров, содержащихся в вашей пище.
По сути, раньше вы ели не столько животную пищу, сколько растительную, и мы, ваши микробы, приспособились переваривать эту растительную пищу.
Каждый из нас умеет делать что-то одно.
Представьте, что вы едите мало растительной пищи или получаете ее прямо из растения.
Оно измельчено, нам почти ничего не осталось.
И специалисты уходят. Это просто серые будни твоего кишечника – это всегда однообразная еда из одной и той же картонной упаковки.
Когда ты стареешь, мы на самом деле думаем, что готовим тебя к смерти – чтобы тебя снова переварили на более простые составляющие, и мы создали из тебя новую жизнь на этой планете.
В принципе, мы всегда так делали.
Интересный способ понять, насколько это круто и как оно встроено в человеческое тело.
Существует теория, что через иммунные клетки кишечника матери микробы передаются через молоко ее ребенку.
Там, в его кишечнике, эти иммунные клетки раскрываются.
Таким образом, в какой-то момент мать заселяет кишечник ребенка полезными микробами.
Другими словами, пока создавалось это человеческое эволюционное тело, мы нашли способ максимально быстро и безопасно добраться до ваших детей.
Эта картина на самом деле интересна.
Когда-нибудь наяву вам придется избавиться от множества вредных микробов.
Вы сделали две вещи.
Я уже упоминал антибиотики.
Второе — о гигиене: вы заставили всех мыть руки.
Крайний вариант — Маяковский, который вообще всего боялся и все мыл своим тазом.
Это суперкультурный феномен.
Надо понимать, что в любой живой природе нет такого явления или мема, будто все нужно мыть.
Вы создали это, создали несколько супер сказок, и у разных национальностей они могут быть разными.
В моем детстве, в вашем детстве, в чужом детстве в 1980-е годы обязательно был этот персонаж Мойдодыр, и мальчик с грязными руками и грязными ногами был просто супер-мега-позорным.
Вот если вы наберете в Википедию «теорию гигиены», то сразу обнаружите теорию одного европейского врача о том, что количество аллергий у детей связано с тем, что их помещают в сверхстерильные условия.
Благодаря этому иммунная система не учится, то есть живет в стерильной коробке.
А потом, столкнувшись с чем-то действительно враждебным или полезным, он реагирует на все это воспалением.
А воспаление - это аллергия.
Классная история о еде, о том, как ее можно интересно оформить.
Например, вы едите мясо, а один из моих коллег — тоже микроб — может получить из этого мяса вещество, которое затем создаст холестериновые бляшки.
Если с вами не живет такой коллега, то с мясом у вас проблем нет. Если он с вами поселился, то хорошо бы об этом подумать и как-то это отрегулировать.
Потому что я понимаю, что одна из ваших целей – оставаться в этом теле как можно дольше, сохраняя его функциональность и радость жизни.
Необходимо, чтобы тело было не просто оболочкой, путешествующей куда-то сотни лет, а живой оболочкой.
Так что интересно обратить внимание.
И тут начинаются всевозможные данные, которые есть в Интернете.
Вы начали меня активно изучать во время этого рассказа об эпидемиологическом ожирении в Соединённых Штатах Америки.
С 1990 по 2008 год распространенность ожирения как диагноза в некоторых штатах выросла с 10% до 30%.
На самом деле, он не очень похож на те голливудские фильмы, которые вы видели.
По улицам действительно ходят очень толстые люди.
У 30% из них есть диагноз.
При этом структура питания американцев за эти 30 лет не изменилась.
А исследователь Джеффри Гордон обнаружил, что у худых людей и людей с избыточным весом, у которых диагностировано ожирение, микробы разные.
Более того, когда он пересадил эти микробы от людей, страдающих ожирением, мышам, оказалось, что мыши быстрее набирали вес.
То есть этот вариант микробов, обитающий у людей, страдающих ожирением, производит больше калорий из того же количества пищи.
И тогда вы поняли, что состав микробов влияет на то, как вы себя чувствуете.
Та же интересная история происходит на продовольственном рынке, когда люди приобретают мясо.
Если животным дают субтерапевтические дозы антибиотиков, они постепенно набирают вес.
Если вы находитесь в капиталистической стране, то чем больший вес вы получите от того же количества корма и того же количества времени, которое продаете в долларах, тем это для вас выгоднее.
Естественно, в какой-то момент этим свойством стали пользоваться все производители животных.
Когда эти животные попадают на стол, а затем и в человека, антибиотики как вещества практически никуда не уходят, и человек становится таким же потребителем субтерапевтических доз этих антибиотиков.
И результат точно такой же – человек просто набирает вес.
Здесь важны субтерапевтические дозы, потому что дозы настолько малы, что ни Роспотребнадзор, ни американский Потребнадзор их просто не выявляют. Есть некоторые пределы чувствительности.
Другая ваша история — действительно живой проект, вы можете на нее взглянуть.
Это называлось Хэппи Мил.
Вы можете догадаться, почему.
На 137-й день еда, оставленная в воздухе, выглядит примерно так же, как в магазине.
Почему она выглядит так? Потому что ни микробы, ни плесень эту пищу не едят. Представьте, что такая еда попадает к вам внутрь, а там такие же микробы.
Они тоже не хотят это есть.
Говорят, что позже Макдональдс выступил с опровержением, что никакой специальной химии там не было, только много соли.
Но если вдуматься, нас не волнует, что их большое количество мешает микробам нормально расти.
Другая картина, на этот раз более сложная.
И это уже круто - о данных, которые в разных экономических группах показывают, как растут доходы на душу населения, и что происходит с потреблением мяса, пустыми калориями - это в основном алкоголь и сладости - и вообще с количеством калорий.
Вот экономическая группа А — самые богатые страны с 1961 по 2009 год. Выросли доходы, увеличилось потребление мяса.
В группе Б оно началось ниже, но и там происходит то же самое.
И на самом деле, все, что мы видим во всех экономиках, это то, что если доход на душу населения увеличивается, то люди начинают есть больше мяса, больше пустых и диетических калорий.
За исключением Индии, там мясо не едят. То есть из данных понятно, что чем больше мы зарабатываем, тем больше мы едим.
И мы едим те самые пустые калории, которые не очень полезны для наших микробов.
А наш образ жизни – несмотря на то, что мы зарабатываем больше – становится менее гибким.
Мы когда-то изучали эти микробы в России и обнаружили, что в больших городах — Новосибирске, Санкт-Петербурге — микробы такие же, как у европейцев и американцев.
Те же комбинации.
А в деревнях есть разные микробы, какие-то уникальные составы.
А потом мы поняли, что это прямое влияние глобализации, что когда человек приезжает из деревни в город, он попадает под фильтр антибиотиков, которые есть в продуктах питания, и простых консервантов, которые есть во всех продуктах питания.
Во всем мире продукты во всех магазинах покупают одни и те же люди.
И это фильтрует и удаляет часть микробов, и остаются только те, кто сможет пережить такой геноцид. Тогда мы все становимся одинаковыми, не можем отличить европейца от американца и от русского, живущего в большом городе.
Еще одна маленькая история.
Все, что я сказал об антибиотиках, относится и к ней.
Это важно знать, поскольку это глобальная тема, которую также можно отслеживать в данных.
В общем, вы производите все больше и больше антибиотиков, и доза, убившая первую бактерию при создании первого антибиотика, теперь должна быть во сто крат больше, чтобы убить бактерию.
Мы всегда адаптируемся благодаря тому, что можем поделиться раз в час и нам не сложно умереть.
Мы адаптируемся гораздо быстрее.
Есть вероятность, что среди нас найдется плохой парень, на которого не подействуют никакие ваши антибиотики.
Он будет быстро распространяться и быть смертельным.
Это вопрос безопасности антибиотиков.
Антибиотики циркулируют во всей окружающей среде.
Мы с ребятами сделали эту картинку о разном уровне резистентности к разным антибиотикам в разных странах.
Его можно найти в Интернете или в этой статье.
Интересно, что чем более промышленно развита страна, например Китай, тем сильнее сопротивление.
И среди этих самых китайцев мы также видим устойчивость к химикатам.
То есть микробы начинают перерабатывать какие-то неприятные химические вещества, попадающие в организм.
Они уже адаптируются.
Но не очень понятно, станет ли от этого китайцам легче или нет. Хороший проект, в котором мы участвуем с российской стороны, — это микробиота метрополитенов всех городов.
Сейчас здесь почти 100 городов.
Все началось в Нью-Йорке.
Мы собрали ДНК со всех станций и посмотрели, какие там микробы.
А, например, по поводу данных - которые, кстати, тоже открыты - мы недавно решили следующую задачу: можно ли по составу микробов определить, на какой станции метро она находится? Потому что разные микробы едут с разных станций в центр, и там при транспортировке все смешиваются.
В целом мы воспринимаем тему о микробах как науку о сложности.
Мне кажется, что гуру науки о сложности находится в Санта-Фе.
Есть такой Университет сложности, Институт наук о сложности, я там когда-то стажировался.
И один из способов изучения сложности.
Сложностью мы называем состояние простых объектов, между которыми существуют какие-то связи.
А систему молодости мы создали из двух бактерий, трех веществ, которыми они обмениваются, некоторого количества поступающей пищи и кишечника.
В какой-то момент мы даже моделировали.
Красные и синие бактерии — это кишечник, и все они общаются друг с другом.
Это называется агентным моделированием.
Мы можем запустить эту историю, а затем посмотреть, получим ли мы что-то похожее на то, что происходит в реальной жизни.
Например, у нас есть система с двумя устойчивыми точками, причем точки различаются в зависимости от того, как микробы распределяются в кишечнике.
На самом деле, люди пока не могут это измерить.
Но мы также представляем себе, что одни живут ближе к стене, другие любят посередине.
Затем с помощью этой системы мы смоделировали прием лекарств и выяснили, что в некоторых случаях все микробы, не устойчивые к лекарствам, внезапно вымирают, и остаются только устойчивые.
Таким образом сопротивление может распространиться по всей планете.
Другая история – например, о ДНК.
Я расскажу немного подробнее об алгоритмах и Дне науки о данных.
Вы можете напрямую взять последовательности ДНК микробов.
Мы работаем с последовательностью около 200 букв.
Разрежем его на k-меры — слова длины k. Мы взяли, кажется, слова из девяти букв.
Затем вы можете использовать эту подпись и частоту девятибуквенных слов, чтобы попытаться сравнить микробный состав всех присутствующих здесь людей.
Что интересно, даже при таком подходе мы нашли людей, у которых появилось какое-то новое существо, и оно оставило новый след из этих девятибуквенных слов.
Это даже где-то было опубликовано в журнале «Биоинформатика».
Тогда у указанного существа не было генома.
Пока мы дописывали статью, появился геном, и мы наглядно доказали, что это одно и то же существо, которое можно идентифицировать только по частоте букв, то есть по не очень сложной метрике.
Еще мы любим работать с графиками.
Я не очень понимаю, какой у тебя уровень.
Я слышал предыдущую речь.
Я понимаю, что уровень, наверное, какой-то сверхвысокий математико-программист, поэтому слова графики оставлю без пояснений.
Существуют графы де Брейна, которые решают следующую задачу: найти суперстроку, которая будет включать в себя все подстроки, и таким образом собрать геном маленького микроба, ведь люди могут получить его только по частям.
И мы научились вычислять эти графы быстрее за счет того, что не отсекаем в них всякие хитрые ответвления, а оставляем их и умеем с ними работать в высокопроизводительных компьютерах.
Кто бы мог подумать? И это тоже заслуга.
То есть здесь очень много нерешенных задач с уже решенными методами.
Я специально привел обычного программиста, пришедшего ко мне на работу два года назад, чтобы он от души поделился тем, что он умеет делать по биологии.
Анатолий Васильев, инженер-исследователь «Атласа»: — Я приехал два года назад, у меня вообще не было биологического образования.
Мой опыт подсказывает, что вам не обязательно иметь биологическое образование, чтобы заниматься наукой о данных в области биологии.
Я хочу рассказать вам сегодня о том, чем я занимаюсь, на примере двух алгоритмов.
Первый — анализ уровня синтеза витаминов в микробиоте человека, второй — текстовый анализ фактов о бактериях.
Что касается анализа уровней синтеза витаминов, то задачу можно сформулировать следующим образом.
На входе у нас есть набор матриц.
Начнем с того, что это так называемая матрица относительного обилия бактерий в пробах.
Каждый образец — это человек, микробиота конкретного человека.
Итак, матрица подскажет вам, какие бактерии у него в кишечнике.
А это несколько справочных матриц из проекта с открытым исходным кодом PICRSt. Вот матрица того, какие бактериальные гены с какими ферментами связаны.
Витамины состоят из ферментов.
И в результате мы хотим получить матрицу, которая будет содержать информацию об уровнях синтеза витаминов в образцах.
И, собственно, исходя из описания проблемы, уже понятно, что речь идет о множестве операций агрегации и связывания матриц.
И как специалисты по обработке данных — я один из них в этой команде — мы занимались реализацией алгоритма, проведением исследовательского анализа и всем, что связано с кодом.
Но нам нужно было руководство биолога, чтобы научить нас концепции алгоритма и помочь нам понять, какие математические операции имеют, а какие нет смысла с биологической точки зрения.
Например, не всегда ясно, правильно ли брать медиану или среднее значение.
Я покажу вам тепловую карту.
Показана способность микробиоты, пробы, синтезировать ферменты витамина В9. Чтобы микробиота могла его синтезировать, она также должна синтезировать все ферменты, из которых она состоит. Названия образцов немного слились, но теперь это не так важно.
На основе этой тепловой карты мы можем увидеть несколько групп образцов, у которых, например, с синтезом этого витамина все достаточно хорошо.
Присутствуют почти все ферменты.
Но есть две группы образцов, у которых дела обстоят хуже, и как специалист по обработке данных я могу задать вопрос: что отличает эту группу образцов? Я могу сравнить эти образцы на основе их бактериального состава или каких-то метаданных.
Возможно, все эти образцы принадлежат людям, которым, например, за 40.
На самом деле у нас много матриц.
В случае с алгоритмом анализа синтеза витаминов размер матрицы небольшой, она умещается в оперативной памяти, поэтому такой анализ можно легко провести на ноутбуке.
Но в случае, например, данных WGS (полного геномного секвенирования) мы имеем матрицу о представлении 9 миллионов генов в 10 тысячах образцов, то есть 9 миллионов столбцов и 10 тысяч строк.
Такая матрица не помещается в оперативную память, поэтому нужны технологии работы с большими данными, такие как HBase, потому что она предназначена для матриц.
Мы думаем, что с помощью технологий Big Data мы сможем собрать огромное количество биологических данных и накопить их.
У Knomix уже есть данные об относительной численности бактерий и результаты анализов на их основе.
Например, уровень синтеза витаминов.
Дмитрий:
«Мы начали просматривать все эти кучи матриц.
У нас есть рабочее название MetaMut. Это проект, в котором мы можем представить в виде гигантской матрицы все входные данные для биологических алгоритмов, которые мы используем при работе с микробами.
Данные говорят, какие бактерии существуют, какие гены, какие мутации в этих генах.
По нашим оценкам, размерность матрицы составляет около 20 миллионов таких столбцов, а строк столько, сколько выборок.
И тогда каждый алгоритм, который люди официально выпускают в виде статьи, в которой что-то говорится о микробах, мы на самом деле можем представить как набор матричных операций умножения, сложения, транспонирования и т. д. И тогда мы подходим не к биоинформатике, ко всей этой супер- формализованная наука, а просто правильный язык матричных операций.
Если подумать и надеяться, что такую сложную историю о бактериях, генах, всяких обходах графа и так далее, мы можем представить просто в виде конечного набора матричных операторов.
в тот самый момент описываемый язык будет стать конструктором, с помощью которого любой data science, не погружаясь в смысл, сможет попрактиковаться с матрицами.
И когда он обнаружит внутри матриц интересные свойства – с математическим подготовкой это не очень сложно – у него останется только вопрос, есть ли здесь какая-то интерпретация.
Он вернется с этим вопросом обратно к биологу.
Анатолий:
— Далее я хотел поговорить о фактах интеллектуального анализа текста о бактериях.
На входе этого алгоритма мы имеем корпус из 16 тысяч научных статей о микробиоте кишечника человека.
А еще у нас есть каталоги, которые также являются словарями названий бактерий, болезней, пробиотиков и продуктов питания.
И мы хотим получить таблицу с предполагаемыми фактами о бактериях.
То есть это тройки: бактерии, пища и то, как они связаны друг с другом.
Наши инструменты для решения этой задачи включали в себя стандартные средства обработки естественного языка (кстати, из пакета spaCy), а также ручную подготовку проб.
И вот здесь нам нужно, чтобы биологи прочитали предложения из этих статей, где мы ищем связи, и обозначили их как положительные или отрицательные.
Мы извлекли связи между сущностями в этих предложениях, где сущность — бактерия, еда.
Наш метод основан на поиске кратчайшего пути между словами в графе предложений.
И у нас есть гипотеза, что, используя кратчайший путь, мы можем определить связь между двумя сущностями.
Затем мы использовали конвейер трансферного обучения: это экстрактор признаков и какой-то простой классификатор.
Я решил вставить небольшой пример кластеризации.
Мы собрали много-много кратчайших путей из разных графов научных предложений, в которых встречалось какое-то название бактерий — например, Faecalibacterium prausnitzii — и какой-то пищевой продукт или пребиотик инулин.
Мы соединили эти две сущности в предложение и получили множество разных кратчайших путей в графах.
И мы их сгруппировали, получив вот такую интересную картину.
Фактически это говорит нам о том, что наша гипотеза, все эти кратчайшие пути в графах, действительно могут работать и каким-то образом систематизированы.
Это ПКС.
Дмитрий:
— Здесь есть еще одна важная история.
Мы работаем с научными текстами.
И люди, если честно, не используют всю глубину и выразительность английского языка в научных текстах.
На самом деле, скажем, я, как человек, окончивший Физтех, могу идентифицировать человека, окончившего Физтех, по стандартным английским выражениям, которые он употребляет. В общем, есть какой-то минимальный словарный запас.
Для науки тоже есть такой минимальный словарь.
И эта способность классифицировать некоторые стандартные фразы, сообщающие нам факты, упрощает семантический анализ текста.
Далее мы взяли из работы Толиной и построили график болезней так, чтобы болезни были ближе друг к другу, если говорилось об одном и другом заболевании, если они связаны одной и той же бактерией.
И это происходит чаще, чем в среднем.
Оказывается, просто анализируя текст, связывая болезни с бактериями, а бактерии с болезнями, мы получаем график взаимосвязи болезней.
Теги: #Исследования и прогнозы в ИТ #Обработка естественного языка #hbase #гены #биоинформатика #секвенирование #антибиотики #микробиология #геном #алгоритмы биоинформатики #геномика #калории #наука о сложности #текстовый анализ #секвенирование генома #трансферное обучение
-
Сравнение Планов Базы Данных Списков Ячеек
19 Oct, 24 -
Советы По Покупке Принтера Hp «Все В Одном»
19 Oct, 24 -
Радио-86Рк На Оборудовании Maximite
19 Oct, 24 -
Механизм Микроблогов Reactor
19 Oct, 24 -
Как Заработать 30% Годовых В Рублях
19 Oct, 24