Применение популяционного биобанка для анализа распространенности клинически значимых ДНК-маркеров в населении России: биоинформатические аспекты
https://doi.org/10.15829/1728-8800-2020-2732
Аннотация
Одной из задач популяционных биобанков является определение частот клинически значимых генетических полиморфизмов у населения. Население России характеризуется исключительно высокой гетерогенностью как в этническом, так и в генетическом плане, поэтому частоты генетических маркеров востребованы не в одной выборке, а в серии выборок, отражающих основное разнообразие генофонда различных народов и регионов.
Цель. Разделение народонаселения России и сопредельных стран на группы популяций, удовлетворяющие определенным условиям, а также имеющие репрезентативную выборку в существующих данных и биобанках.
Материал и методы. Разработан метод объединения популяций в более крупные группы с сохранением гомогенности внутри этих групп на основе главных компонент с кластеризацией К-средних, с последующей доработкой кластеризации для большей гомогенности и более равномерного распределения размеров групп с применением FST расстояний. Технология отлажена на примере Биобанка Северной Евразии, поэтому материалом для исследования послужили массивы широкогеномных данных по 4,5 млн генетических маркеров для 1883 образцов, представляющих 247 популяций России и сопредельных стран из выборок данного биобанка. Разработанный подход, результирующий набор популяций и их карта могут применяться при использовании других коллекций биоматериалов из российских популяций.
Результаты. Применение этого подхода позволило разделить все население России и сопредельных стран на 29 этногеографических групп (ЭГГ), характеризующихся относительной генетической гомогенностью. Этот набор популяций рекомендуется как базовый для популяционных скринингов на выявление частоты любых генетических маркеров среди населения России. Построена карта, демонстрирующая деление народонаселения на 29 территорий — ареалов ЭГГ.
Заключение. На основе надежного массива полногеномных данных проведено районирование генофонда населения России: выделены ЭГГ, обладающие контрастными частотами аллелей при сравнении друг с другом, но при этом относительно гомогенные внутри себя. Результирующая карта и реестр групп могут применяться в популяционно-генетических, медико-генетических и фармакогенетических исследованиях.
Ключевые слова
Об авторах
И. О. ГоринРоссия
Игорь Олегович Горин — младший научный сотрудник лаборатории геномной географии
Москва
В. С. Петрушенко
Россия
Валерия Сергеевна Петрушенко — младший научный сотрудник лаборатории геномной географии
Москва
Ю. С. Записецкая
Россия
Юлия Сергеевна Записецкая — младший научный сотрудник лаборатории геномной географии
Москва
С. М. Кошель
Россия
Сергей Михайлович Кошель — ведущий научный сотрудник лаборатории популяционной генетики человека, к.г.н., ведущий научный сотрудник кафедры картографии и геоинформатики
Москва
О. П. Балановский
Россия
Олег Павлович Балановский — доктор биологических наук, профессор РАН, ведущий научный сотрудник, зав. лабораторией геномной географии, главный научный сотрудник лаборатории популяционной генетики человека, учредитель
Москва
Список литературы
1. Balanovskaya EV, Zhabagin MK, Agdzhoyan AT, et al. Population biobanks: Organizational models and prospects of application in gene geography and personalized medicine. Russian Journal of Genetics. 2016;52(12):1371-87. (In Russ.) Б doi:10.7868/S001667581612002X.
2. Jing L, Haiyi L, Xiong Y, et al. Genetic architectures of ADME genes in five Eurasian admixed populations and implications for drug safety and efficacy. J Med Genet. 2014;51(9):614-22. doi:10.1136/jmedgenet-2014-102530.
3. Mirzaev KB, Fedorinov DS, Ivashchenko DV, et al. ADME pharmacogenetics: future outlook for Russia. Pharmacogenomics. 2019;20(11):847-65. doi: 10.2217/pgs2019-0013.
4. Triska P, Chekanov N, Stepanov V, et al. Between Lake Baikal and the Baltic Sea: genomic history of the gateway to Europe. BMC Genet. 2017;18(Suppl 1):110. doi:10.1186/s12863-0170578-3.
5. Jeong C, Balanovsky O, Lukianova E, et al. The genetic history of admixture across inner Eurasia. Nat Ecol Evol. 2019;3:966-76. doi:10.1038/s41559-019-0878-2.
6. Balanovsky OP, Gorin IO, Zapisetskaya YS, et al. Interaction of the gene pools of the Russian and Finnish-speaking population of the Tver region: analysis of 4 million SNP markers. Vestnik RSMU. 2020;(6). (In Russ.) doi:10.24075/vrgmu.2020.072.
7. Alhusain L, Hafez AM. Nonparametric approaches for population structure analysis. Hum Genomics. 2018;12(1):25. doi:10.1186/ s40246-018-0156-4.
8. Liu N, Zhao H. A non-parametric approach to population structure inference using multilocus genotypes. Hum Genomics. 2006;2(6):353-64. doi:10.1186/1479-7364-2-6-353.
9. Patterson N, Price AL, Reich D. Population Structure and Eigenanalysis. PLoS Genet. 2006;2(12):e190. doi:10.1371/journal.pgen.0020190.
10. Hartigan JA, Wong MA. Algorithm AS 136: A K-Means Clustering Algorithm. J R Stat Soc. 1979;28:100-8. doi:10.2307/2346830.
11. Lee C, Abdool A, Huang C. PCA-based population structure inference with generic clustering algorithms. BMC Bioinformatics. 2009;10 Suppl 1(Suppl 1):S73. doi:10.1186/1471-2105-10S1-S73.
12. Chang CC, Chow CC, Tellier LC, et al. Second-generation PLINK: rising to the challenge of larger and richer datasets. Gigascience. 2015;4:7. doi:10.1186/s13742-015-0047-8.
13. Manichaikul A, Mychaleckyj JC, Rich SS, et al. Robust relationship inference in genome-wide association studies. Bioinformatics. 2010;26:2867-73. doi:10.1093/bioinformatics/btq559.
14. Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: Machine Learning in Python. J Mach Learn Res. 2011;12:2825-30. https://www.researchgate.net/publication/51969319_Scikit-learn_Machine_Learning_in_Python.
15. Koshel SM. Geoinformation technologies in genogeography. Modern geographic cartography. 2012;158-66. (In Russ.) Кошель С. М. Геоинформационные технологии в геногеографии. Современная географическая картография. 2012;158-166. https://www.researchgate.net/publication/294848419_Geoinformacionnye_tehnologii_v_genogeografii.
Дополнительные файлы
Рецензия
Для цитирования:
Горин И.О., Петрушенко В.С., Записецкая Ю.С., Кошель С.М., Балановский О.П. Применение популяционного биобанка для анализа распространенности клинически значимых ДНК-маркеров в населении России: биоинформатические аспекты. Кардиоваскулярная терапия и профилактика. 2020;19(6):2732. https://doi.org/10.15829/1728-8800-2020-2732
For citation:
Gorin I.O., Petrushenko V.S., Zapisetskaya Yu.S., Koshel S.M., Balanovsky O.P. Population-based biobank for analyzing the frequencies of clinically relevant DNA markers in the Russian population: bioinformatic aspects. Cardiovascular Therapy and Prevention. 2020;19(6):2732. (In Russ.) https://doi.org/10.15829/1728-8800-2020-2732