Прямой вывод и контроль генетической структуры популяции на основе данных секвенирования РНК
Биология связи, том 6, Номер статьи: 804 (2023) Цитировать эту статью
2275 Доступов
21 Альтметрика
Подробности о метриках
Данные RNAseq могут использоваться для вывода о генетических вариантах, однако их использование для оценки генетической структуры популяции остается недостаточно изученным. Здесь мы создаем свободно доступный вычислительный инструмент (RGStraP) для оценки основных генетических компонентов на основе RNAseq (RG-PC) и оценки того, можно ли использовать RG-PC для контроля структуры популяции в анализе экспрессии генов. Используя образцы цельной крови из недостаточно изученных популяций Непала и исследование Geuvadis, мы показываем, что RG-PC имели сопоставимые результаты с парными генотипами на основе массивов, с высокой конкордантностью генотипов и высокими корреляциями основных генетических компонентов, охватывая субпопуляции в наборе данных. При анализе дифференциальной экспрессии генов мы обнаружили, что включение RG-PC в качестве ковариат снижает инфляцию тестовой статистики. Наша статья демонстрирует, что генетическую структуру популяции можно напрямую выводить и контролировать с помощью данных RNAseq, что способствует улучшению ретроспективного и будущего анализа транскриптомных данных.
Секвенирование РНК (RNAseq) произвело революцию в нашем понимании транскриптома, предложив как точный метод количественного определения экспрессии генов, так и идентификацию специфических альтернативных сайтов сплайсинга и транскриптов, специфичных для конкретного типа клеток1,2. Его применение распространяется на клинические условия, что позволяет нам дополнительно выяснять сложные заболевания и идентифицировать перспективные биомаркеры как инфекционных, так и неинфекционных заболеваний3.
Тем не менее, исследования с использованием RNAseq редко учитывают генетические вариации зародышевой линии, также содержащиеся в наборах прочтений RNAseq. Исследования, которые не используют эту информацию, могут быть подвержены предвзятости и искажениям, таким как расслоение населения, которое может повлиять на транскрипцию между группами4,5,6,7. Чтобы решить эту проблему, исследователи обычно полагаются на данные полногеномного массива или данные полногеномной последовательности (WGS), сопоставленные для одних и тех же людей с RNAseq. Это позволяет исследователям применять подходы к контролю за стратификацией населения, такие как расчет главных генетических компонентов (PC) и их использование в качестве ковариат в последующих моделях статистических ассоциаций8,9,10. Генетические PC представляют собой скрытую генетическую структуру внутри популяций и между ними, что вносит помехи из-за различий в социальной среде11 или (в случае дифференциальной экспрессии генов) из-за гетерогенности локусов количественных признаков между группами. Однако необходимость в полногеномном массиве или WGS для сопоставления с данными RNAseq потенциально не нужна и действительно может быть невозможна в условиях ограниченности ресурсов, таких как страны с низким и низким средним уровнем дохода (LMIC) с очень разнообразным и недостаточно изученным населением.
Было продемонстрировано, что вызовы генотипов могут быть сделаны на основе данных RNAseq с использованием таких инструментов, как GATK12,13,14. Подход использования данных RNAseq для определения генетической структуры применялся в животноводстве и сельском хозяйстве15,16,17,18, например, для изучения структуры популяции, истории и адаптации одомашненного ячменя (Hordeum vulgare)17. Хотя подтверждение концепции и последующая применимость генотипов на основе RNAseq были продемонстрированы, например, для тканеспецифичных вариантов19, их применение для определения структуры человеческой популяции многообещающе, но остается относительно недостаточно изученным20.
Цели этого исследования состоят в том, чтобы (i) продемонстрировать, что генотипы на основе RNAseq могут отражать генетическую популяционную структуру разнообразной, но недостаточно изученной популяции человека, и (ii) показать, что использование основных генетических компонентов на основе RNAseq (RG-PC) может эффективно контролировать структуру населения при анализе ассоциаций. Здесь мы набрали и получили данные РНКсек цельной крови 376 человек из Непала, страны, не имеющей выхода к морю, расположенной в Гималаях, с населением более 125 этнических групп21,22. Мы разработали конвейер анализа RNAseq (RGStraP) для расчета основных генетических компонентов непосредственно на основе данных RNAseq, а затем проверили эффективность RGStraP с помощью полногеномных данных генотипов тех же непальских индивидуумов. Мы также протестировали конвейер на образцах консорциума Geuvadis, который содержит 465 образцов с парными данными генотип-РНКсек из пяти из 1000 популяций геномов23. Наконец, мы показываем обоснованность корректировки RG-PC в ассоциативном анализе для выявления экспрессии генов, специфичных для пола. В целом, наше исследование показывает, что структуру человеческой популяции, особенно из малоизученной, но разнообразной популяции, можно эффективно фиксировать и контролировать непосредственно с использованием данных RNAseq.