Биоинформатический анализ данных секвенирования

F-Genetics

Биоинформатический анализ данных секвенирования — основной этап на которому формируется Заключение. У пациента проводится поиск патогенных и вероятно патогенных вариантов в соответствии с исходным направительным диагнозом, а также схожими фенотипическими признаками.

Данные секвенирования анализируются с помощью автоматизированного алгоритма, заключающего в себя оценку параметров качества секвенирования.

Анализ данных. Используется автоматизированный пайплайн, написанный на языке python, включающий в себя оценку качества секвенирования (FastQC), удаление оснований и ридов с низким качеством (fastp), выравнивание прочтений на референсную сборку генома человека GRCh38/hg38 при помощи bwa-mem2, коллинг вариантов с помощью strelka2. Метрики покрытия получены программой Picard. Аннотация полученных вариантов реализована при помощи OMIM и VEP. Анализ числа копий (инсерций и делеций) проводился с помощью clinCNV и manta, интерпретация в соответствии с критериями ACMG3.

Используемые компьютерные программы предсказания патогенности вариантов нуклеотидной последовательности

При проведении анализа мы строго следуем российским и международным рекомендациям, ознакомиться с которыми можно по следующим ссылкам:

Рекомендуемые базы данных для анализа патогенности вариантов нуклеотидной последовательности

Используемый стек технологий:

  • Python
  • Docker
  • Snakemake
  • ClickHouse
  • MongoDB

Общие требования к оформлению биоинформатического отчёта и заключения о результатах исследования

Информация о пациенте должна включать фами лию, имя, отчество (в трех строках друг под другом), дату рождения, пол, клинический диагноз, указания на родственные отношения, если есть данные о других членах семьи.

Информация о выявленных вариантах нуклеотидной последовательности должна включать:

список патогенных, вероятно патогенных вариантов и вариантов неопределенного значения, выяв- ленных при анализе, по номенклатуре HGVS;

название гена;

положение (позицию) замены в геноме по GRCh/hg;

зиготность;

номер экзона;

номенклатуру на уровне нуклеотида и ДНК;

номенклатуру на уровне белка (в случаях, когда используется историческая (альтернативная) номенклатура, рекомендуется указывать оба варианта);

номер используемой референсной последова- тельности (NM);

данные о покрытии:

  • среднее покрытие исследуемой области при секвенировании полного (WES) должно быть не менее х70, полного генома (WGS) ‒ не менее х30;
  • при исследовании WES/WGS/»клинического» экзома необходимо указывать долю (в %) «целе- вых» областей с покрытием менее x10;
  • при исследовании панелей генов необходимо указывать все регионы с покрытием менее x10;
  • при обнаружении только одного варианта в гетерозиготном состоянии при заболевании с рецессивным типом наследования необходимо указывать все области гена с покрытием менее х10 при любом типе исследования.

название заболевания;

тип наследования;

частоты варианта в базах данных (с указанием использованной версии базы данных);

результаты программ предсказания патогенности in silico с указанием Score и использованной вер- сии программы. Должны быть указаны результаты анализа патогенности варианта с использованием всех программ, которые применяет лаборатория для интерпретации его клинической значимости, а не только те результаты, где он оказался клинически значимым.

Все варианты нуклеотидной последовательности, указанные в заключении, должны быть подтверждены секвенированием по Сэнгеру или другой валидированной технологией.