Файл: Можно сказать, что большая часть данных секвенирования избыточна, поскольку прочитанные варианты совпадают с эталонным геномом и неинтересны. Для анализа важны только различия, которые и записаны в vcfфайле.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.02.2024

Просмотров: 38

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Мы проанализируем 650.000 мутаций в вашем геноме https://www.genotek.ru/genetics/genom/.
Также будет проанализировано 3560 генетических маркеров на Y-хромосоме (которая передается от отца к сыну и может быть исследована только у мужчин) и
980 генетических маркеров на митохондриальной ДНК (которая передается от матери детям), для определения пути миграции предков по отцовской (только для мужчин) и материнской (для мужчин и женщин) линиям.


Анализ Y-хромосомы и митохондриальной ДНК позволяет оценить время, когда у вас были ближайшие общие предки с известными людьми по отцовской и материнской линиям. Также, проанализируем около 300.000 этнических маркеров для определения этнического состава в вашем геноме и сравним их с эталонными геномами 548 народов.

Вы можете ознакомиться с нашим примером результатов https://demo.genotek.ru/. В примере есть интерпретация и научные данные, а также, исходные данные (650.000 строчек)

Можно сказать, что большая часть данных секвенирования избыточна, поскольку прочитанные варианты совпадают с эталонным геномом и неинтересны. Для анализа важны только различия, которые и записаны в VCF-файле.



Пропустив большую шапку, посмотрим на первые два столбика файла.

Под заголовком #CHROM идет порядковый номер одной из 23 пар хромосом, в которые упакованы нити ДНК.

Напомню, что 22 хромосомы парные (аутосомные), то есть одинаковы у мужчин и женщин. У мужчин кроме них есть непарные половые Х и Y-хромосомы. А у женщин есть две Х хромосомы, то есть, все 23 хромосомы парные. Хромосомы обозначают по порядковым номерам. Например, chr5 (5-я хромосома) или chrY (Y-хромосома).

POS – позиция прочитанной молекулы ДНК, одной из миллионов, по всей ее длине. Номера идут по возрастающей.

ID – обычно заполняется в процессе аннотирования уникальными номерами вариантов из «энциклопедии» dbSNP.

Разобравшись в предыдущей главе с аллелями
, мы можем взглянуть на пятый и шестой столбики VCF файла, которые называются REF и ALT. Здесь REF – это заранее известный эталонный аллель, а ALT – найденные отличия от эталона, то есть, альтернативный аллель. Если альтернативными оказались оба гетерозиготных аллеля, то записывается их пара, разделенная запятыми.

Гетерозиготные варианты проявляются как позиции, где приблизительно половина чтений соответствует эталону, а другие показания отличаются от эталона.

0/1 – образец является гетерозиготным и содержит 1 копию каждого из аллелей – эталонного REF и альтернативного ALT

1/1 – образец является гомозиготным и отличается от эталона.

Сочетание 0/0 (гомозиготный эталонный) обычно не заносится в файл вместе с самой записью, потому что не имеет значения для анализа.

QUAL – качество. Это важный интегрированный параметр, который позволяет исключить варианты аллеля ALT, которые кажутся сомнительными. Как рассчитывается качество, я писал выше.