В феврале прошлого года я впервые затронул тему прогнозирования новых химических соединений с помощью методов глубокого обучения, когда опубликовал перевод об инструменте FermiNet .
Подобные исследования, находящиеся на стыке физики, химии, биоинформатики и фармакологии, призваны моделировать потенциально возможные химические связи и конфигурации молекул.
Это может одновременно снизить стоимость и существенно ускорить разработку новых лекарств.
Я также затронул эту тему в статья о выращивании кристаллов , но несколько в другом аспекте: гравитация вносит коррективы в форму молекул, поэтому некоторые конфигурации молекул быстро «мнутся».
Эта проблема остро стоит при производстве невероятно дорогих лекарств (в первую очередь противораковых), терапевтический эффект которых заключается в поддержании строго определенной формы молекул, блокирующих патологические биохимические процессы.
Если бы мы могли оптимизировать производство тонких молекул (в частности, ферментов), которые блокируют функционирование определенных белков, это изменило бы фармакологию, значительно персонализировав ее.
Но у этого направления исследований есть и обратная сторона: оно открывает путь к созданию чрезвычайно токсичных и живучих веществ, которые будет практически невозможно «выковырять» из биохимического аппарата, если они там окажутся.
Несколько слов о машинном и глубоком обучении
Было бы невозможно дать в этой статье даже краткий обзор машинного обучения и глубокого обучения как предметной области, не отступая от темы.Поэтому оговорюсь лишь, что машинное обучение и глубокое обучение являются подразделами искусственного интеллекта и не тождественны друг другу.
Машинное обучение можно сравнить с чрезвычайно сложным статистическим анализом больших наборов данных; Машинное обучение позволяет выявлять закономерности и находить решения именно на основе статистических характеристик, при этом вам не нужно явно программировать компьютер (указывать ему пошаговую последовательность операций для достижения цели) с помощью машинного обучения.
При глубоком обучении компьютеры образуют (многослойную) нейронную сеть: на каждом из слоев этой сети обрабатываются особенности анализируемого набора данных, после чего выходные данные предыдущего слоя сети служат входными данными для следующего.
.
При этом также используются методы машинного обучения, однако методы глубокого обучения не ограничиваются чистой статистикой, а отличаются значительным разнообразием: например, с помощью глубокого обучения удобно обрабатывать данные, полученные компьютерное зрение .
Самый популярный обзор машинного обучения доступный в блоге Вастрика, но более строгое, но вполне понятное изложение (в частности, о взаимосвязи глубокого и машинного обучения, а также о типах нейросетей) данный в работе Дмитрия Павленко.
Также есть иллюстрация, показывающая взаимосвязь между рассматриваемыми здесь предметными областями:
В целом (особенно учитывая работу со знаками, описанную в работе Павленко Здесь и т. д.) Я бы охарактеризовал машинное обучение как «неизвестное об известном», а глубокое обучение как (в то же время) «понимание неизвестного» или «уверенность в неизвестном».
Поэтому при разработке новых молекул ученым сначала требуется глубокое обучение с тщательным отбором неоптимальных вариантов.
Глубокое обучение в этой области основано на данных о химических свойствах, совместимости и геометрии молекул.
Нейронные сети как биохимический полигон
Открытие лекарств направлено на поиск новых химических соединений со специфическими свойствами, обычно терапевтическими.В последние годы эта область тесно связана с информатикой, поскольку опирается на методы машинного обучения, которые в последнее время стали гораздо доступнее.
Библиотеки машинного обучения, предназначенные для решения узкоспециализированных задач, чаще всего реализуются на Python — и далее в этой статье мы упомянем некоторые из этих библиотек, созданных специально для фармацевтического моделирования.
В настоящее время развивается понятие «прецизионная медицина», которая связана с конкретным комплексом проблем.
Можно считать, что история точной медицины началась с американского мальчика.
Николас Уокер (Николас Волкер), который в 2009 году (в возрасте около 2,5 лет) попал под опеку врачей Детской больницы Висконсина и к 2011 году перенес около 160 операций.
Мальчик страдал от продолжающегося воспаления кишечника, природа которого осталась неясной.
Пришлось полностью секвенировать его геном, чтобы найти редкую мутацию в гене XIAP, отвечающем за апоптоз (запрограммированную гибель клеток).
Природа точной медицины чрезвычайно затрудняет разработку лекарств с использованием традиционных методов, таких как большие когортные исследования.
Когортное исследование длится многие месяцы или годы и затрагивает сотни и тысячи людей.
Развитие прецизионной медицины занимает в лучшем случае годы, а уровень персонализации настолько высок, что препарат можно изучать только на самом пациенте или на небольшой группе людей, страдающих одним и тем же заболеванием (например, генетическим или раковым).
Поэтому воспроизводимые и стандартизированные методы моделирования молекул и их взаимодействий становятся более важными, чем когда-либо, в доклинических исследованиях.
Эта новая научная дисциплина, условно называемая хеминформатикой, сейчас переживает период «большого взрыва» и может резко сократить стоимость и время открытия новых лекарств.
Конечно, у него есть свои ограничения, но он снимает массу других ограничений (в том числе связанных с государственным регулированием) – поэтому темная сторона этих событий пока игнорируется или недооценивается.
Но темные и трудно предсказуемые стороны хеминформатики напрямую связаны с преимуществами и недостатками нейронных сетей.
В процессе разработки лекарств подходы машинного обучения могут применять для следующих целей:
- Прогнозировать структуру таргетных препаратов
- Выявить и уточнить перспективные варианты
- Исследовать биологическую активность новых лигандов.
- Разработать модели, прогнозирующие фармакокинетику и токсикологические свойства вещества-кандидаты
Данные, используемые для машинного обучения, могут быть помечены или не помечены.
Под спойлером краткое описание этих трёх видов тренировок.
Скрытый текст Для контролируемого обучения вам понадобится помеченный (обучающий) набор данных, на котором обучается модель.
После обучения модель может начать делать прогнозы и формулировать решения по мере получения новых данных.
Среди методов контролируемого обучения в биохимических задачах используются машина опорных векторов и искусственные нейронные сети (ИНС), которые способны выявлять наиболее сложные закономерности в больших наборах данных.
Обучение без учителя выявляет взаимосвязи или закономерности в немаркированных данных.
Модель учится сама, наблюдая за большим количеством данных и объединение найденных закономерностей и связей в кластеры .
Последовательное обучение позволяет агенту (это сущность, имеющая цель) учиться в интерактивной среде методом проб и ошибок, оценивая опыт взаимодействия с этой средой как положительный и отрицательный.
Таким образом, последовательное обучение является вариантом обучения с подкреплением.
Использование компьютеров при разработке лекарств началось в 1970-х годах, задолго до появления машинного обучения.
Технология CADD (Computer-aided Drug Discovery) (CADD) уже сейчас позволяет существенно снизить стоимость и ускорить разработку лекарств на основе наиболее перспективных веществ-кандидатов, и при этом препарат еще находится «на кончике пера».
» Практически Метод Монте-Карло Создаются обширные базы данных «фармацевтических» молекул, структурные формулы которых затем подвергаются виртуальному скринингу.
CADD использует два основных подхода к молекулярному дизайну: 1) структурный и 2) открытие лекарств на основе лигандов (LBDD).
Эту конструкцию еще называют QSAR. Метод, основанный на лигандах, позволяет проверить, какие небольшие молекулы могут прикрепляться (фактически стыковаться) к большой молекуле белка.
Этот подход легко оптимизировать и можно смоделировать с помощью готовых библиотек Python. Первичная оценка свойств препарата, также проводимая виртуально, сокращенно обозначается как КСАР («поиск количественных связей структура-свойство»).
QSAR позволяет искать потенциально активные соединения.
Несмотря на относительную легкость такого поиска, даже «виртуальные» молекулы должны подвергаться предварительной оценке по параметрам АДМЕТ (абсорбция, распределение, метаболизм, выведение, токсичность).
Соответственно, такая работа позволяет собирать данные не только о потенциально терапевтических, но и о токсичных молекулах.
Метод молекулярная стыковка позволяет виртуально проверить варианты стыковки молекул и степень их химического сродства (сродства).
Во время стыковки выбирается целевой белок, к которому затем подбирается молекула-лиганд – обычно встроенная в белок с целью блокирования его работы: Именно на материале молекулярного докинга накапливается набор данных, на основе которого можно ускорить развитие молекул.
Ниже мы рассмотрим две разработки: движок DeepBAR, созданный в MTI (Массачусетский технологический институт) и библиотеку Писмайлы , который позволяет моделировать молекулы.
Двигатели и нейронные сети
Таким образом, препарат будет работать только в том случае, если он успешно прикрепится к целевым белкам в организме.Оценка такой «прилипчивости» является ключевым препятствием в процессе открытия и проверки лекарств.
Новые исследования в этом направлении происходят на стыке химии и машинного обучения.
Массачусетский технологический институт разработал новую технологию DeepBAR, которая может быстро рассчитать сродство связывания между кандидатами на лекарства и их мишенями.
Это сродство определяется свободной энергией связи — чем ниже это значение, тем сильнее связь.
На практике низкая энергия связи заставляет лекарство «побеждать» другие молекулы, также пытающиеся связаться с белком.
Следовательно, связывание свободной энергии является прямым показателем потенциальной эффективности лекарства.
Методы расчета свободной энергии связи делятся на две основные категории, каждая из которых имеет свои недостатки.
Методы одной категории позволяют точно рассчитать эту энергию, что требует значительных временных и вычислительных ресурсов.
Методы второй категории не столь ресурсоемки, но свободная энергия связи рассчитывается лишь приблизительно.
DeepBAR занимает в этом отношении лучшее место, поскольку он точно вычисляет желаемую величину, но делает это с гораздо меньшими вычислениями, чем более ранние методы, поскольку большая часть работы выполняется не во время самого расчета, а на предварительном этапе, в ходе машинного обучения.
.
Аббревиатура «BAR» в DeepBAR означает «коэффициент приемки Беннета»; «Оценочная функция Беннета» — это алгоритм, который десятилетиями использовался в структурной химии.
Для работы по этому алгоритму, как правило, необходимо знать энергию двух «крайних» состояний: 1) молекула лекарства прочно связана с белком и 2) молекулы белка полностью диссоциированы в растворе, а также принимают учитывать множество промежуточных состояний (например, разную степень промежуточного связывания).
DeepBAR выстраивает цепочку этих промежуточных состояний, вычисляя оценочную функцию Беннета с помощью нейронных сетей, а точнее — глубокие генеративные модели .
Такие модели позволяют создать для каждой конечной точки два эталонных состояния – «соединение есть» и «соединение отсутствует».
Такие глубокие генеративные модели во многом основаны на разработках компьютерного зрения — в том, что разграничение промежуточных состояний происходит примерно по тому же принципу, что и объединение фрагментов при синтезе изображений компьютером.
По сути, молекула воспринимается как картинка (точнее, скульптура, поскольку важна пространственная ориентация молекулы), и в таких картинках модель может научиться распознавать как сами молекулы, так и варианты связывания молекул и лекарств.
.
Библиотека устроена по-другому.
Писмайлы , который реализует технологию на Python УЛЫБКИ .
SMILES позволяет выражать цепочки химических связей в виде строк, а затем преобразовывать эти строки в последовательности целых чисел.
Далее нейронная сеть, изучающая последовательности SMILES, присваивает веса последовательностям чисел, которые она извлекает из набора данных SMILES — и, следовательно, прогнозирует вероятность образования и силу различных химических связей.
Pysmiles работает примерно так:
Существуют и другие специализированные библиотеки для выбора молекулярных конфигураций: Сорока — это библиотека на Java, которая прогнозирует свойства материалов с помощью методов машинного обучения.
ПиМКС — библиотека на Python для соотнесения химической структуры веществ с их свойствами Опенбабель — библиотека на Python и C++ для биоинформатики и хемоинформатики/ Наиболее заметной инициативой по оценке токсичности разработанных лекарств стал конкурс Токс21 , проходивший в 2014 году.
Участники построили вычислительные модели, обычно с использованием глубокого обучения, для оценки 12 параметров токсичности для 12 000 лекарств и химических веществ, обнаруженных в окружающей среде.
По итогам конкурса удалось построить уникальный Конвейер DeepTox , обеспечивающий многоэтапную проверку.
В то время казалось, что ценность этой работы преимущественно академическая и классификационная.
Она показала, какие методы глубокого обучения и архитектуры нейронных сетей наиболее удобны для моделирования новых молекул: выяснилось , что это машина опорных векторов (SVM), искусственные нейронные сети (ANN), k-ближайшие соседи (KNN), линейный дискриминантный анализ (LDA), наивный байесовский классификатор (NB) и ряд других — от лучшего к худшему.
В результате этой работы во второй половине 2010-х годов появились коммерческие пакеты программного обеспечения для создания новых лекарств.
Одной из самых современных разработок стала программа МегаСин , используя вышеупомянутую технологию SMILES и генеративно-состязательные нейронные сети (GAN).
ГАН — целое направление развития глубокого обучения, особенностью этих нейронных сетей является создание несуществующих, но в то же время чрезвычайно реалистичных образцов на основе изучаемого набора данных.
Фабрика обоюдоострых ядов
Летом 2021 года Фабио Урбина и Шон Икинс из Collaborations Pharmaceuticals, Северная Каролина, провели невероятно простой и еще более шокирующий эксперимент с MegaSyn. Они перевернули «функцию полезности», встроенную в этот программный пакет, снабдили программу коммерческим набором данных и попросили смоделировать вещества, наиболее вредные для организма.При этом «по умолчанию» программа проектировала молекулы к двум целям : увеличение полезности и повышение биологической активности, причем исследователи поменяли местами только одну из этих функций, превратив полезность в токсичность.
На столь странный опыт их побудила аналогия со знаменитым нейроном GPT-3, предназначенным для обработки естественного языка.
Изменив функцию полезности GPT-3, команда исследователей из Торонто принужденный нейрон разразится потоком оскорбительных высказываний, в первую очередь расистских, сексистских и оскорбительных.
Всего за 6 часов работы нейросеть Урбины и Икинса «изобрела» около 40 000 молекул, каждая из которых является потенциальным химическим оружием.
В частности, нейрон вырабатывал газ VX, известный по боевику «Скала»: Многие из молекул, предложенных программой, не существуют в природе и пока не получены, но, скорее всего, они тоже окажутся мощными ядами.
Авторы подчеркнули, что многие из предложенных нейроном молекул являются настолько экзотическими соединениями, что химики даже не пытались искать токсичные свойства в этой биохимической области.
Но поскольку обратная функция полезности работает одинаково для всех веществ, то летальность этих молекул не подлежит сомнению.
В конце марта 2022 года журнал Nature опубликовал статью Урбины и Икинса «Двойное использование открытия лекарств с помощью искусственного интеллекта», в которой подводятся итоги этих исследований и делается неутешительный вывод о том, что современная мощь нейронных сетей уже создала условия возникновения биохимического терроризма.
Более того, за счет оптимизации сродства лигандов к белкам и описанной выше технологии DeepBAR технология создания вредных лекарств может найти широкое применение в производстве синтетических наркотиков, которые будут более захватывающими и вызывающими большее привыкание, чем их известные аналоги.
Эту технологию также можно было бы использовать для производства препаратов, подавляющих волю, «сывороток правды», а также «меточных веществ», которые можно было бы использовать для поиска человека по биохимическому анализу крови и которые было бы очень сложно вывести из организма.
.
Хотелось бы ошибаться в столь мрачных прогнозах, но даже беглый анализ, представленный в этой статье, позволяет оценить как перспективы, так и опасности использования нейронных сетей в биохимии.
Очевидно, что органика — это во многом комбинаторика, и в такой комбинаторике искусственный интеллект сейчас непомерно превосходит все защитные и регулирующие меры, которые мы могли бы предпринять.
Теги: #Машинное обучение #Популярная наука #Химия #глубокое обучение #оружие #GaN #биохимия #биохимия #химические формулы
-
Прикладная Лингвистика
19 Oct, 24 -
О Вступлении В Силу «Антипиратского» Закона
19 Oct, 24 -
Белорусские Болота Выходят В Онлайн
19 Oct, 24 -
Радио–Т №75
19 Oct, 24