Метилирование Днк И Биоинформатика

После прочтения вводной статьи Порта О биоинформатика , в частности технологий Chip-Seq и RNA-Seq, мне очень понравилась идея расширить в меру своих возможностей русскоязычные статьи о биоинформатике, и особенно о ее «практической» составляющей.

Поэтому я предлагаю этот краткий обзор разработки технологии анализа метиломов.

Illumina 450K Метилирование человека .

В течение жизни организма нуклеотидная последовательность его ДНК в основном остается неизменной (подробнее о генах, геноме и ДНК см.

, например, Эта статья ).

Тем не менее, существуют процессы, которые могут влиять на геном, его работу и даже передаваться по наследству.

Эти процессы называются эпигенетическими изменениями.

Одним из основных эпигенетических механизмов является метилирование ДНК.

Метилирование — это изменение молекулы ДНК путем добавления метильной группы (-CH3) к нуклеотиду C, при этом необходимо, чтобы за C следовал нуклеотид G. Последовательность нуклеотидов -CG- называется CpG-динуклеотидом, или CpG-сайтом.

Метилирование не происходит во всех клетках одновременно, поэтому мы говорим о проценте метилирования конкретного сайта CpG. Метилирование ДНК является одним из важных механизмов регуляции экспрессии генов.

Показано, что изменения профиля метилирования связаны с такими заболеваниями, как различные виды рака, диабет первого и второго рода, шизофрения и др.

Поэтому важно уметь анализировать профиль метилирования генома.

В настоящее время распространено несколько методов количественного измерения профилей метилирования.

Одной из наиболее распространенных является серия микрочипов Illumina. Остановлюсь подробнее на описании чипа Illumina 450K Infinium Array и анализе полученных с его помощью данных.

Чип 450К измеряет уровень метилирования примерно 486 000 сайтов CpG, более или менее равномерно распределенных по геному.

Не вдаваясь в биологические и химические подробности функционирования чипа, кратко технологию можно описать следующим образом.

Каждый сайт CpG измеряется с помощью двух флуоресцентных зондов.

Флуоресцентный сигнал образцов пропорционален соответственно количеству метилированных и неметилированных CpG-сайтов в тестируемом образце.

Чип позволяет тестировать до 12 биологических образцов одновременно.

Итак, на выходе мы имеем таблицу значений, в которой количество строк равно количеству CpG-сайтов, а количество столбцов — количеству анализируемых биологических образцов.

С этого момента начинается сама биоинформатика.

Конвейер для анализа данных с использованием языка и библиотеки R. Биопроводник имеет примерно следующие пункты (с указанием соответствующих пакетов от Bioconductor): 1. Выбор шкалы измерения (значение Бета или М).

Подробнее Здесь .

2. Регулировка баланса цветового канала.

Некоторые сайты CpG измеряются с использованием образцов одного цвета, а некоторые — с использованием двух.

Эта проблема устраняется путем нормализации сигналов двух проб в каждой биологической пробе.

3. Коррекция фона.

Каждый слот для биологических образцов на чипе имеет разный фон по умолчанию.

Поэтому коррекция фона необходима для выравнивания значений между выборками.

4. Межвыборочная нормализация.

Основные используемые методы — квантильная нормализация и нормализация SVN (пакет люми ).

5. Проверка пакетного эффекта с использованием анализа главных компонентов.

6. Пиковая коррекция ( коррекция на основе пика ).

7. Коррекция групповых эффектов с помощью пакетов КомБат И СВА .

8. Проверка статистической значимости с использованием линейных моделей, перестановок или обычных тестов гипотез (пакеты Лимма И мульттест ).

9. Анализ данных с использованием различных алгоритмов машинного обучения (перечислять их не буду, возможностей целый океан).

10. Корреляция с данными об экспрессии генов и СНП (метилирование Локусы количественных признаков ).

Рекомендуемый пакет для использования матрицаEQTL .

Прошу прощения за путаницу — это следствие попытки изложить всё в одной небольшой обзорной статье.

Если кому интересно, процесс построения конвейера я опишу в нескольких более подробных статьях с примерами кода на R. Теги: #биоинформатика #r #биопроводник #r

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.