Top.Mail.Ru
info@dia-m.ru 8 (800) 234-05-08
+7 (495) 745-05-08
Ваш регион Москва?

Высокопроизводительное генотипирование при помощи панелей AgriSeq и микрочипового анализа Axiom. Часть 2.

22.09.2022
Содержание статьи:

На втором вебинаре 12 ноября 2021 г, посвященном высокопроизводительному секвенированию, Валерия Вавилова, специалист научной поддержки компании Thermo FS по направлению NGS и микрочипов, рассказала о программных комплексах для обработки результатов анализа по технологиям AgriSeq и Axiom в исследованиях растений и других объектов.

Данные, полученные на оборудовании Thermo FS, которое используется в технологиях NGS, обрабатываются просто, и от пользователя требуются довольно несложные действия, чтобы получить финальные данные.

Плагины программного пакета Torrent Suite для сбора и визуализации данных по технологии AgriSeq

Роль геномных технологий в растениеводстве

Технология AgriSeq представлена широким кругом задач, животных и растений которые можно изучать с ее помощью. Это достаточно мощный и гибкий, к тому же ресурсосберегающий инструмент для быстрого генотипирования различных организмов по количеству маркеров от 50 до 5000.

Технология AgriSeq

В компании полностью подобраны все реагенты и приборы, а также программное обеспечение, позволяющее получить исчерпывающий объем готовых данных.

(Рис. 1)

Для работы нужны система Ion Chef System и секвенатор серии Ion GeneStudio S5, а также чипы, загружаемые на приборы, и необходимая для них химия. Весь процесс имеет высокий уровень автоматизации и требует очень мало времени на ручной труд – в основном на стадии подготовки библиотек, но и в этом случае требуется не более 15 минут в день.

(Рис. 2)

А проанализировать полученные данные и получить готовые результаты позволяет специализированное программное обеспечение Torrent Suite.

(Рис. 3)

Дизайн эксперимента и его суть заключается в том, что все панели AgriSeq, созданные компанией Thermo FS, основаны на поиске определенных SNP. На панели задаются специальные ампликоны, которые нужно отсеквенировать, и на стадии получения готового результата пользователь видит все найденные «снипы», представленные в виде готовой таблицы. В ней перечислены все полиморфизмы, которые ищет пользователь, вместе с их позицией на хромосоме и вообще локацией. Также в финальных данных указано, какие варианты в данном случае вообще могут встретиться, и по каждому образцу в табличке представлена информация о его последовательностях.

Agriseq Targetd BGS- Flexible, Powerful Genotyping Technology.jpg

Так выглядит рабочий экран сервера Torrent Suite.

Torrent suite

Torrent Server предварительно загружен программным обеспечением Torrent Suite.

(Рис. 4)

Он получает данные от секвенатора, передает их программному обеспечению и специальному плагину Torrent Variant Caller для анализа вариантов. Он позволяет преобразовать «сырой» сигнал в base call – оценку качества прочтения нуклеотидов, данные, которые можно анализировать, соотносить с эталонным геномом для оценки качества запуска.

(Рис. 5)

Для удобного представления данных создан пользовательский плагин AgriGenomics. Он отображает все генотипы в формате матрицы, работает в паре с Torrent Variant Call для транслирования формата данных .cov в матрицу. Приложение получает данные из файла Excel от Torrent Variant Caller и выполняет их переформатирование. Нужно просто кликнуть по соответствующей ссылке в интерфейсе.

Полученные данные об обнаруженных полиморфизмах можно экспортировать в различные внешние базы данных.

Кроме того, можно получить информацию о метриках качества при запуске, и о настройках процесса и характеристиках секвенатора.

Метрика качества отображает, насколько хорошо произошла загрузка чипа (визуально: чем краснее тем лучше),

Run Results

На отображенном примере видно, что загрузка прошла хорошо: 89% чипа было загружено нашими библиотеками.

Все метрики качества имеют описанию в соответствующих протоколах, и их можно сравнивать в любой необходимый момент, чтобы узнать нужные детали запуска. Так, в этом запуске был использован 540-й чип – один из самых «старших». Мы ожидали получить на нем 60-80 млн прочтений, а получили более 80 млн, что говорит о довольно успешном запуске.

Кроме того, можно просмотреть в этой программе, как как прочитались загруженные образцы – например, узнать их покрытие. Обычно ожидается увидеть покрытие каждого ампликона, равное 100.

Еще можно посмотреть такие качества как uniformity – единообразие, доля нуклеотидов с глубиной прочтения как минимум 0.2 – оценка полного покрытия таргетного региона, а также или количество именно таргетных прочтений, не сигналов, вызванных присутствием неких посторонних организмов. Можно посмотреть и полный call rate.

GBS Quality Metrics - What we Analyze

Все эти метрики качества можно посмотреть, просто включив дополнительные плагины в настройках.

(Рис. 6)

Чтобы убедиться в простоте пользования этим софтом, нужно перейти на сайт приложения. Так выглядит интерфейс Torrent Suite.

(Рис. 7)

Сейчас мы удаленно зашли на прибор, работающий в лаборатории Thermo FS в Дармштадте.

(Рис. 8)

Чтобы проанализировать какие-то данные технологии AgriSeq, нужно запланировать ран (запуск, прогон). Для этого есть уже готовые шаблоны, которые можно, но не необходимо использовать: все настройки можно ввести самостоятельно.

Введение настроек

Вначале приложение предложит выбрать, какому пользователю получаемые данные нужно загрузить по их получении.

Затем нужно выбрать, как именно пользователь хочет проанализировать свои образцы. Можно их анализировать каждый по отдельности, все вместе или, например, когда мы сравниваем отца, мать и ребенка, можно делать трио-анализ. В данном случае выбираем, что хотим получить данные для каждого образца отдельно.

На следующей вкладке снова выполняем пошаговые настройки: указываем, что работаем с ДНК, указываем технику – AmpliSeq ДНК.

(Рис. 9, 10)

На следующем этапе нужно обязательно указать, с каким прибором мы работаем (выбираем секвенатор – в данном случае Ion GeneStudio S5), а затем выбрать чип, который используется в запуске – в зависимости от того, какая у нас панель. В данном случае используем чип Ion 540.

Самое важное, что нужно заполнять то, что что не является опциональным, а после выбора остальных параметров система сама подгружает ряд дополнительных.

Загрузка данных

Следующая вкладка – «Плагины», и в ней мы выбираем те плагины, которые работают с нашими целевыми полиморфизмами. Плагины – это внутренние небольшие программы, которые позволяют дополнительно анализировать полученные в запуске данные.

При работе с какой-то конкретной панелью нужно будет выбрать тот, что прописан в соответствующем протоколе. В числе дополнительных плагинов можно также использовать оценку покрытие (ведь мы ожидаем увидеть стократное покрытие). Остальные плагины выбираются по желанию в зависимости от характера эксперимента.

Пользователю не нужно получать отдельно какие-то последовательности в программах по выравниванию – сразу будет получен готовый формат данных.

(Рис. 11)

В данном случае мы работаем с AgriSeq наша цель – просто получить таблицу с буквами.

(Рис. 12, 13)

Заключительный этап настроек – нужно ввести название проекта. Всё, компьютерная часть работ завершена. Теперь в приложение потребуется вернуться только тогда, когда будут получены готовые данные и нужно будет сформировать отчет о проведенной работе.

Это все, что касается работы с таргетным NGS. Все необходимые данные можно смотреть в разных протоколах, а внизу в интерфейсе этого софта есть различные инструменты. Доступны референсные материалы, полные подробные протоколы, в которые включена вся информация о запуске.

Версии Torrent Suite Server равнозначны – и облачная, и на стационарном сервере, и все настройки внутри сервера всегда одинаковы.

Axiom Analysis Suite и обработка данных генотипирования на микрочипах

Axiom Analysis Suite и обработка данных генотипирования на микрочипах

Для анализа данных при работе с микрочипами Axiom создано отдельное программное обеспечение.

В анализе генома по этой технологии тоже идет поиск специальных полиморфизмов – все они заданы на используемом чипе. Технология та же самая: есть готовые решения, есть свои алгоритмы обработки информации. Программа, в которой обрабатываются данные, называется Axiom Analysis Suite. Она бесплатная, загружается на компьютер и устанавливается за 5 минут.

Вот как выглядит ее главный экран.

Главный экран

Смысл эксперимента в том, что при прочтении генома пользователь получает очень большое количество полиморфизмов, а программа позволяет их рассортировать и отнести каждый полиморфизм к определенному типу. Здесь перечислены все задействованные алгоритмы.

Смысл в том, что если у нас в образце были представлены обе аллели и получаем гетерозиготу, то полиморфизмы расположены одним образом, если образец был гомозиготный, то все полученные с него полиморфизмы расположатся в другой области, если гомозиготный рецессивный – еще в одной, отдельно. Существует несколько разных классификаций, по которым идет сортировка этих полиморфизмов. В том числе есть методики, позволяющие работать не с диплоидными образцами, а с полиплоидными, как часто бывает при изучении растений. Определенным образом настроенные алгоритмы программы в таком случае распознают, что исследователь не столкнулся с ошибкой или несуразностью, и анализируют такие данные определенным образом, а дальше передают их в обработку, чтобы установить генотип данного растения.

(Рис. 14)

Итак, перед нами рабочее пространство программы Axiom Suite Analysis. Файлы, полученные с GeneTitan в формате .cel, должны быть скачаны на компьютер. Их нужно открыть и загрузить.

Для примера рассмотрим «человеческую» панель – увы, по растениям нет данных в открытом доступе, но принципы обработки данных не изменяются.

При выборе маркеров для формирования панели нужно исходить из того, что известно об исследуемом организме из различных исследований. Например, известны какие-то гены, которые нас интересуют, какие-то типичные полиморфизмы, которые способствуют развитию определенного признака.

Если нет надлежащей информации и каких-то данных, можно провести сначала дополнительное предварительное исследование – например, провести полное секвенирование генома и потом выбрать нужные параметры, интересующие исследователя. Или, если известно, что кто-то уже работает с этим организмом, уже есть готовая панель под этот организм, можно попробовать запустить ее и посмотреть известные данные. Все зависит от того, что доступно в качестве исходных данных.

Итак, в рассматриваемом примере сюда загружаются все образцы, которые нужно проанализировать – их должно быть много, минимум 96, чтобы алгоритм программы смог их хорошо кластеризовать по всем полиморфизмам.

Если анализируется меньшее количество образцов, то сначала в любом случае придется провести валидацию с большим их количеством, занести настройки в программу, а потом переходить к анализу на доступных маленьких выборках, например, даже если нужно анализировать всего четыре образца.

Рабочее пространство программы Axiom Suite Analysis

Все это дополнительно настраивается. Еще можно всегда подгрузить данные с предыдущих запусков.

Рабочее пространство программы Axiom Suite Analysis

В программе есть предварительно скачанные и загруженные библиотеки, которые позволяют пользователю найти просто все варианты работы с данными, и есть несколько видов workflow (рабочего процесса), которые можно использовать. Например, если мы хотим посмотреть на какие-то метрики качества после прогона – это один вариант, если мы хотим только генотипирование, то выбираем отдельно воркфлоу по генотипированию. Обычно рекомендуется выбирать такой вид рабочего процесса – Best Practices Workflow, он совмещает и все данные генотипирования, и метрики по качеству. Здесь все параметры качества перечислены автоматически.

(Рис. 15)

Для конкретного запуска важен параметр качества, который называется Dish QC и используется для «человеческих» панелей (данные должны соответствовать определенному пороговому значению этого параметра, чтобы быть использованными для анализа). Это отвалидировано нашей компанией и потому уверенно предлагается пользователям. Важен также call rate, отображающий количество обнаруженных и проанализированных полиморфизмов. По умолчанию порог ставим 97%, но этот параметр можно менять.

Рабочее пространство программы Axiom Suite Analysis

После того как запуску дано название, его можно запустить. При этом пользователь переходит в следующее окошко, в котором перечислены все ранее запущенные когда-либо прежде рабочие процессы. О них есть информация, успешно они прошли или нет, и пользователь может запускать анализы здесь и смотреть результат ранее проведенных запусков.

Рабочее пространство программы Axiom Suite Analysis

Вот как выглядят результаты уже после проведенного анализа.

Проанализированные данные открываются сначала в виде суммарного отчета, в котором перечислены все метрики качества, параметры для этой панели и другие детали запуска. Далее можно открыть таблицу, в которой перечислены все образцы. Там тоже перечислены метрики качества, такие как call rate и другие. Можно добавлять сюда какие-то атрибуты, например, если нужно всегда для конкретного образца видеть какую-то особую информацию, можно добавить сюда дополнительные колонки.

(Рис. 16)

Самый интересный момент – переход во вкладку ProbeSet Summary – здесь представлены данные по всем полиморфизмам, которые были на чипе. Итак, перед нами все полиморфизмы и все образцы.

(Рис. 17)

Теперь есть возможность видеть ту самую кластеризацию, выбирать какой-то полиморфизм для отдельного образца. Например, пользователю всегда интересен 17-й образец. Он всегда будет подсвечиваться на вот этом полиморфизме, к какому генотипу он относится, мы будем понимать, что это была рецессивная гомозигота и она хорошо кластеризуется именно сюда. Соответственно, программа всегда разносит образцы к какому-то генотипу. Если какие-то данные не разнесены никуда, их отдельно подсветит серым цветом (например).

Всю информацию о полиморфизмах можно смотреть, можно добавить дополнительные столбцы, например, какой генотип нас интересует и т.д.

Если ведется работа с животными, растениями, пользователя интересуют какие-то конкретные их характеристики: например, сколько дают молока коровы, если анализируется коровий геном. Если известно, что какие-то гены ассоциированы с каким-то признаком, всегда можно добавить эту информацию в существующую таблицу, а затем использовать это в сортировке, указав, например, что нас интересуют только коровы, у которых были хорошие показатели – гомозиготные доминантные по какому-то признаку, красивый окрас или что-то еще. И отобрать только эти образцы для просмотра.

Рабочее пространство программы Axiom Suite Analysis

Данные можно экспортировать в разные форматы в зависимости от потребности пользователя. Чаще всего нам понадобятся данные генотипирования отсюда, и чтобы их получить, требуется заполнить эту вкладку: здесь можно дополнительно выбрать, что следует добавить в файл при экспорте. Например, если ведется работа с человеческой панелью, может быть нужно добавить гены, которые дадут пользователю какую-то ссылку на определенную базу данных. Возможно, кому-то понадобится вывести информацию, на какой хромосоме находился определенный полиморфизм, начало и конец этой хромосомы и т.д.: какая аллель была – доминантная или рецессивная, совпадала с референсным геномом или была альтернативная. Все это заносится в таблицу, а в конце система предоставит пользователю файл текстового формата, в котором будет представлено все, что мы определили.

Рабочее пространство программы Axiom Suite Analysis

В данном примере мы экспортируем всё. Следует обратить внимание: если панель большая и экспортируется много данных, на это потребуется определенное время.

Можно экспортировать данные только по одному образцу, а потом полученный текстовый файл скопировать и вставить в таблицу Excel. Можно экспортировать данные в другие форматы и открывать во внешних программах, совместимых с Illumina.

(Рис. 18)

Это осуществляется во вкладке External Tools. Перед тем, как все экспортировать, потребуется установить нужный нам плагин, и тогда экспорт пройдет успешно.

(Рис. 19)

После экспорта мы получаем большую текстовую таблицу. И в этой вкладке доступен экспорт в форматы, совместимые с Illumina.

Если еще раз зайти во вкладку с данными генотипирования, сверху указаны форматы. PLINK – это форматы для того, чтобы открывать полученные данные генотипирования в других внешних программах.

Таблица с полученными данными

Сама таблица с полученными данными выглядит вот так (она может загружаться довольно долго). В ней представлена общая информация. При вставке в Excel можно увидеть данные обо всех генотипах: по вертикали представлены все полиморфизмы, а по горизонтали представлены все образцы. Всю информацию, которую мы «заказывали» для загрузки дополнительно, можно найти в той же таблице в последующих столбцах (нужно пролистать по горизонтали)

Так выглядят данные при работе с технологией микрочипов с приборами GeneTitan и программой Axiom Analysis Suite.

Ссылки на остальные части вебинара

Высокопроизводительное генотипирование при помощи панелей AgriSeq и микрочипового анализа Axiom. Применение в селекции растений. Часть 1.


Возврат к списку

Ваш заказ будет обработан
в ближайшее время.
Мы пришлем уведомление, как только все будет готово. Спасибо!