НИПТ. Биоинформатический анализ

F-Genetics

Алгоритм заключается в обработке первичных данных секвенирования (fastq). Обработка производится путем демультиплексирования образцов (разделения по индексным последовательностям), затем проводится тримминг (отрезание индексных и адаптерных последовательностей), маркирование ПЦР-дупликатов, картирование на референсный геном, расчет количества прочтений, картированных на отдельные участки генома. После картирование оценивается уровень отклонения, позволяющего определить кариотип.

Алгоритм биоинформатического анализа

Полученные первичные данные о флуоресценции ДНК-фрагментов подвергаются basecalling с получением fastq файлов, содержащих информацию о генетической последовательности и качестве секвенирования phred-score. Полученные данные несут информацию о индексной последовательности, что позволяет проводить демультплексирование, то есть относить информацию, полученную для каждой отдельной наносферы к исследуемому образцу.

После basecalling и демультплексирования проводится тримминг индексных и адаптерных последовательностей. Тримминг заключается в отрезании служебных частей прочтения, для того, чтобы не нарушать дальнейший анализ. Тримминг также проводится по качеству, чтобы часть прочтения, характеризующаяся низким качеством секвенирования не использовалась в дальнейшем анализе.

Далее проводится карирование прочтений на референсный геном человека hg19. Данная последовательность характеризуется отсутствием альтернативных контигов и частей хромосом, что позволяет более точно оценивать количество прочтений, картированных на каждую отдельную хромосому. Картирование проводится с использованием преобразований Барроуза-Уиллера. Данные о картировании каждого отдельного образца находятся в файле формата .sam.

После картирования производится конвертация формата .sam в бинарный формат .bam, что значительно ускоряет работу дальнейших алгоритмов. Производится сортировка файла, таким образом, что в начале файла расположены прочтения, картированные на каждый из контигов (в случае настоящего документа — хромосом) в алфавитном порядке, а внутри контига — по увеличению координаты начала прочтения. Производится маркирование ПЦР дупликатов, что позволяет исключить из анализа прочтения, являющиеся точными дупликатами других прочтений.

Затем происходит оценка количества прочтений, картированных на каждый из отдельных участков хромсомы равного размера, называемых bin. Для каждого bin проводится стандартизированная оценка, заключающаяся в оценке количества стандатных отклонений покрытия bin для выборки покрытий всех bin. В случае высокого значения z-score делается вывод о наличии трисомии по исследуемой хромосоме.

Алгоритм реализован на языке python с использованием подходов объектно-ориентированного программирования.