<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="review-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">cardiovascular</journal-id><journal-title-group><journal-title xml:lang="ru">Кардиоваскулярная терапия и профилактика</journal-title><trans-title-group xml:lang="en"><trans-title>Cardiovascular Therapy and Prevention</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1728-8800</issn><issn pub-type="epub">2619-0125</issn><publisher><publisher-name>«SILICEA-POLIGRAF» LLC</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.15829/1728-8800-2024-4195</article-id><article-id custom-type="edn" pub-id-type="custom">IRNCAQ</article-id><article-id custom-type="elpub" pub-id-type="custom">cardiovascular-4195</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ОБЗОРЫ ЛИТЕРАТУРЫ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>REVIEW ARTICLES</subject></subj-group></article-categories><title-group><article-title>Биоинформатический подход к обработке данных высокопроизводительного секвенирования молекул малых РНК</article-title><trans-title-group xml:lang="en"><trans-title>Bioinformatics approach to processing data from high-throughput sequencing of small RNA molecules</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-0723-0493</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Жарикова</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Zharikova</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Анастасия Александровна Жарикова — к.б.н., в.н.с. Института персонализированной терапии и профилактики, лаборатория молекулярной генетики, старший преподаватель факультета биоинженерии и биоинформатики.</p><p>Москва</p></bio><bio xml:lang="en"><p>Moscow</p></bio><email xlink:type="simple">azharikova89@gmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-9056-8796</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Вяткин</surname><given-names>Ю. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Vyatkin</surname><given-names>Yu. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Юрий Викторович Вяткин — программист Института персонализированной терапии и профилактики, с.н.с. лаборатории геномной и медицинской биоинформатики Института перспективных исследований проблем искусственного интеллекта и интеллектуальных систем.</p><p>Москва</p></bio><bio xml:lang="en"><p>Moscow</p></bio><email xlink:type="simple">vyatkin@gmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-4765-8021</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Киселева</surname><given-names>А. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Kiseleva</surname><given-names>A. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Анна Витальевна Киселева — к.б.н., в.н.с. Института персонализированной терапии и профилактики, руководитель лаборатории молекулярной генетики.</p><p>Москва</p></bio><bio xml:lang="en"><p>Moscow</p></bio><email xlink:type="simple">sanyutabe@gmail.com</email><xref ref-type="aff" rid="aff-2"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-5989-6233</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Мешков</surname><given-names>А. Н.</given-names></name><name name-style="western" xml:lang="en"><surname>Meshkov</surname><given-names>A. N.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Алексей Николаевич Мешков — д.м.н., руководитель Института персонализированной терапии и профилактики.</p><p>Москва</p></bio><bio xml:lang="en"><p>Moscow</p></bio><email xlink:type="simple">meshkov@lipidclinic.ru</email><xref ref-type="aff" rid="aff-2"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru">ФГБУ "Национальный медицинский исследовательский центр терапии и профилактической медицины" Минздрава России; ФГБОУ ВО "Московский государственный университет им. М.В. Ломоносова"<country>Россия</country></aff><aff xml:lang="en">National Medical Research Center for Therapy and Preventive Medicine; Lomonosov Moscow State University<country>Russian Federation</country></aff></aff-alternatives><aff-alternatives id="aff-2"><aff xml:lang="ru">ФГБУ "Национальный медицинский исследовательский центр терапии и профилактической медицины" Минздрава России<country>Россия</country></aff><aff xml:lang="en">National Medical Research Center for Therapy and Preventive Medicine<country>Russian Federation</country></aff></aff-alternatives><pub-date pub-type="collection"><year>2024</year></pub-date><pub-date pub-type="epub"><day>30</day><month>12</month><year>2024</year></pub-date><volume>23</volume><issue>11</issue><issue-title>Биобанкирование</issue-title><fpage>4195</fpage><lpage>4195</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Жарикова А.А., Вяткин Ю.В., Киселева А.В., Мешков А.Н., 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Жарикова А.А., Вяткин Ю.В., Киселева А.В., Мешков А.Н.</copyright-holder><copyright-holder xml:lang="en">Zharikova A.A., Vyatkin Y.V., Kiseleva A.V., Meshkov A.N.</copyright-holder><license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://cardiovascular.elpub.ru/jour/article/view/4195">https://cardiovascular.elpub.ru/jour/article/view/4195</self-uri><abstract><p>Высокопроизводительное секвенирование молекул малых РНК (рибонуклеиновых кислот) широко применяют для поиска маркеров, характерных для различных заболеваний, а также при изучении регуляции экспрессии генов. Протокол обработки данных состоит из множества этапов, включающих стадии анализа качества исходных данных и результатов секвенирования, картирования и исследования экспрессионного профиля детектируемых молекул малых РНК. Для реализации каждого шага исследования уже разработан целый арсенал программ и специфических пакетов. Инструментальная композиция итогового биоинформатического протокола критически важна для корректной обработки данных и возможности воспроизвести исследование. В настоящем обзоре описан наиболее универсальный протокол обработки результатов высокопроизводительного секвенирования молекул малых РНК, включающий все основные этапы и наиболее широко используемые программы.</p></abstract><trans-abstract xml:lang="en"><p>High-throughput sequencing of small ribonucleic acid (RNA) molecules is widely used to search for markers of various diseases, as well as to study the regulation of gene expression. The data processing protocol consists of many stages, including the stages of analyzing the initial data quality and sequencing results, mapping and studying the expression profile of the detected small RNA molecules. A whole arsenal of programs and specific packages has already been developed to implement each study step. The instrumental composition of the final bioinformatics protocol is critically important for the correct data processing and study reproduction. This review describes the most universal protocol for processing the results of high-throughput sequencing of small RNA molecules, including all the main stages and the most widely used programs.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>малые РНК</kwd><kwd>некодирующие РНК</kwd><kwd>микроРНК</kwd><kwd>секвенирование</kwd><kwd>биоинформатический протокол</kwd></kwd-group><kwd-group xml:lang="en"><kwd>small RNA</kwd><kwd>non-coding RNA</kwd><kwd>microRNA</kwd><kwd>sequencing</kwd><kwd>bioinformatics protocol</kwd></kwd-group></article-meta></front><body><sec><title>Введение</title><p>Интерес к исследованию функций некодирующих (нкРНК) рибонуклеиновых кислот (РНК) разных классов стремительно растет. нкРНК вовлечены в регуляцию многих физиологических и патологических процессов в прокариотических и эукариотических организмах [<xref ref-type="bibr" rid="cit1">1</xref>]. Группа нкРНК крайне гетерогенна по своему составу, единого устоявшегося варианта классификации не существует; более того, подходы к классификации приходится периодически пересматривать в связи с открытием новых групп нкРНК и уточнением функций уже известных молекул [<xref ref-type="bibr" rid="cit2">2</xref>]. В генной разметке человека версии консорциума GENCODE1 46 — аннотировано ~63 тыс. генов и только ~20 тыс. из них кодируют матричные РНК [<xref ref-type="bibr" rid="cit3">3</xref>].</p><p>Технологии высокопроизводительного секвенирования позволили детектировать различные РНК в любых биологических жидкостях, при этом совершенно необязательно заранее располагать информацией о последовательности этих РНК. С помощью исследований, подразумевающих стадию анализа дифференциальной экспрессии, удалось идентифицировать молекулы РНК разных классов, включая молекулы малых РНК, являющиеся потенциальными маркерами ряда заболеваний, в т.ч. онкологических, сердечно-сосудистых и нейродегенеративных [4-6]. Удобный способ получения биологического материала, относительно быстрый лабораторный и биоинформатический анализ способствовали включению исследований на наличие характерных РНК-маркеров для детекции различных патологий в рутинную медицинскую практику.</p><p>По длине зрелой функциональной молекулы группу нкРНК условно делят на длинные и короткие, или малые РНК. Малые РНК характеризуют длиной &lt;200 нуклеотидов и включают такие классы, как транспортные и рибосомальные РНК, микроРНК (малые некодирующие молекулы РНК длиной 18-25 нуклеотидов), малые ядерные (мяРНК, small nuclear RNA, snRNA) и малые ядрышковые РНК (мякРНК, small nucleolar RNA, snoRNA), piРНК (piwi-interacting RNA, piRNA), малые интерферирующие РНК (small interfering RNA, siRNA), повтор-ассоциированные короткие интерферирующие РНК (repeat-associated small interfering RNA, rasiRNA), кольцевые РНК (circular RNA, circRNA), короткие шпилечные РНК (кшРНК, short hairpin RNA, shRNA) и пр. [<xref ref-type="bibr" rid="cit7">7</xref>][<xref ref-type="bibr" rid="cit8">8</xref>]. Малые РНК разных классов могут отличаться друг от друга механизмом созревания, посттранскрипционными модификациями, субклеточной локализацией, длиной, макромолекулярными партнерами, а также характерной ролью в жизнедеятельности клетки [<xref ref-type="bibr" rid="cit7">7</xref>][<xref ref-type="bibr" rid="cit8">8</xref>]. Наибольшее распространение в качестве потенциальных терапевтических мишеней получили микроРНК.</p><p>МикроРНК — класс малых некодирующих РНК, которые представляют собой одноцепочечные молекулы РНК, обнаружены у растений, животных и некоторых вирусов. Впервые микроРНК была обнаружена в организме нематоды (Caenorhabditis elegans) в 1993г [<xref ref-type="bibr" rid="cit9">9</xref>]. МикроРНК играют важную роль в процессе посттранскрипционной регуляции экспрессии генов, который реализуется посредством деградации транскриптов матричной РНК (мРНК) и ингибирования трансляции [<xref ref-type="bibr" rid="cit10">10</xref>].</p><p>При реализации практически любого биоинформатического анализа есть возможность выбора из большого арсенала доступных программных продуктов. Можно подобрать альтернативные программы и их разнообразные сочетания, функционал которых будет по большей части воспроизводим. Однако даже программы, созданные для выполнения, на первый взгляд, одинаковой задачи, могут отличаться скоростью работы, удобством использования, доступностью, набором дополнительных параметров и прочими сопутствующими характеристиками. При разработке биоинформатического протокола анализа данных любого генеза необходимо учитывать актуальное состояние доступного программного обеспечения, а также возможные специфические особенности анализируемых данных, которые могут повлиять на выбор софта.</p><p>Цель обзора — описание универсального протокола обработки результатов высокопроизводительного секвенирования молекул малых РНК, включающего все основные этапы и наиболее широко используемые программы.</p></sec><sec><title>Методологические подходы</title><p>Проведение поиска литературных источников было выполнено по заголовкам, аннотациям и ключевым словам в системах индексирования научных публикаций (Google Scholar, PubMed, eLIBRARY) с использованием следующих запросов: "малые РНК + биоинформатический", "микроРНК + биоинформатический", "small RNA + bioinformatics", "microRNA + bioinformatics", "microRNA + NGS", "small RNA + functions". В обзор были включены 19 оригинальных исследований 1993-2024гг, посвященных обработке результатов высокопроизводительного секвенирования, в т.ч. молекул малых РНК, а также функциям, биогенезу и роли в жизнедеятельности клетки нкРНК.</p></sec><sec><title>Результаты</title><p>Секвенирование и биоинформатический анализ малых РНК. Исследование фракции малых РНК с применением технологий высокопроизводительного секвенирования может преследовать разные цели, однако всегда подразумевает наличие экспериментального и биоинформатического этапов анализа. Экспериментальный этап включает экстракцию РНК, в т.ч. микроРНК, приготовление библиотек для секвенирования, включающее лигирование адаптеров, обратную транскрипцию, индексирование и амплификацию.</p><p>Различные протоколы экстракции малых РНК [11-13] и подготовки библиотек приводят к дифференцированному обнаружению микроРНК [<xref ref-type="bibr" rid="cit13">13</xref>]. Во время подготовки библиотек систематические ошибки могут возникнуть во время лигирования адаптеров, что объясняется вторичными структурами, образованными между микроРНК и адаптерами, и в связи с этим использование вырожденных адаптеров является предпочтительным [<xref ref-type="bibr" rid="cit14">14</xref>]. Применение уникальных идентификаторов молекул (unique molecular identifiers, UMI) позволяет корректировать ошибки ПЦР (полимеразной цепной реакции) [<xref ref-type="bibr" rid="cit13">13</xref>]. В ходе пробоподготовки перед амплификацией уникальные идентификаторы молекул добавляют к каждому транскрипту микроРНК. Одним из коммерческих наборов с использованием UMI, является, например, QIAseq (Qiagen, Германия). Для подтверждения стабильности и воспроизводимости результатов, согласно рекомендациям консорциума ENCODE2, необходимо располагать хотя бы двумя биологическими репликами.</p><p>На данный момент наибольшее распространение в научных и медицинских лабораториях по всему миру получили секвенаторы следующего поколения (next generation sequencing), поставляемые коммерческой компанией Illumina (США). В основе метода секвенирования, реализованного в данных приборах, лежит принцип секвенирования путем синтеза [<xref ref-type="bibr" rid="cit15">15</xref>]. В результате процесса пробоподготовки получаются одноцепочечные фрагменты дезоксирибонуклеиновой кислоты (ДНК) (или комплементарной ДНК в случае секвенирования РНК), которые закрепляют на твердой подложке, и с помощью фермента ДНК-полимеразы синтезируют комплементарную цепь, затем происходит непосредственно процесс секвенирования, реализованный в виде циклов. В ходе каждого цикла на подложку поступают нуклеотиды, меченные специфическими для каждого типа нуклеотида флуоресцентными метками; за счет дополнительной 3`-модифицикации поступающих нуклеотидов за один цикл секвенирования к матрице может присоединиться только один нуклеотид, флуоресценция инициируется с помощью лазера, результаты детектируются высокочувствительной камерой, затем блокирующая 3`-модификация удаляется и цикл может быть повторен. Еще одна технология высокопроизводительного секвенирования, используемая в приборах DNBSEQ (BGI/MGI, Китай/США), набирает популярность, в т.ч. и в российском сегменте. В основе метода лежит флуоресцентная детекция на поверхности проточной ячейки наношариков ДНК, которые представляют собой амплифицированные по принципу "катящегося кольца" фрагменты ДНК.</p><p>По окончании процесса секвенирования прибор генерирует общий для целого запуска набор бинарных файлов, содержащих расшифровки полученных изображений, в формате bcl (binary base call) для приборов компании Illumina и в формате cal в случае BGI/MGI. Обычно в рамках одного запуска секвенатора компонуют несколько образцов, помечая библиотеки специфическими бар-кодами в ходе пробоподготовки, а встроенное программное обеспечение секвенатора позволяет получать файлы с чтениями для каждого образца в явном виде. Чтения, полученные в результате высокопроизводительного секвенирования, хранят в текстовых файлах формата FASTQ, где на каждый исследуемый образец приходится один FASTQ файл в случае одноконцевого протокола секвенирования или два парных FASTQ файла при парноконцевом секвенировании. Файлы bcl можно конвертировать в файлы FASTQ с помощью программы bcl2fastq, предоставляемой компанией Illumina (США). Для секвенирования фракции малых РНК ввиду длины целевых молекул допустимо использовать одноконцевой протокол с длиной чтений 75-100 нуклеотидов.</p><p>Традиционно биоинформатический анализ данных высокопроизводительного секвенирования полного цикла начинается с исходных или сырых чтений и подразумевает наличие нескольких стадий. В случае исследования экспрессионного профиля малых РНК анализ включает в себя: коррекцию последовательностей чтений при необходимости, картирование чтений на последовательность референсного генома, квантификация известных РНК на основании существующих генных разметок, дополнительно может быть реализована задача поиска новых РНК. На каждом этапе осуществляется контроль качества исходных чтений, результатов картирования чтений, квантификации и многое другое. Основные этапы биоинформатического анализа представлены на рисунке 1.</p><fig id="fig-1"><caption><p>Рис. 1 Основные этапы биоинформатического анализа результатов секвенирования фракции малых РНК.</p><p>Примечание: микроРНК — малые некодирующие молекулы РНК длиной 18-25 нуклеотидов, UMI — unique molecular identifiers (уникальные идентификаторы молекул).</p></caption><graphic xlink:href="cardiovascular-23-11-g001.png"><uri content-type="original_file">https://cdn.elpub.ru/assets/journals/cardiovascular/2024/11/eZYvnum6fGchjPmNa99kitwfs1xzrbyJzqWJ8nNE.png</uri></graphic></fig><p>Анализ качества. Следующий этап анализа, характерный для любого протокола секвенирования — анализ качества полученных чтений, которое может быть оценено согласно разнообразным характеристикам. Разберем наиболее важные из них.</p><p>Первое, на что стоит обращать внимание — количество чтений, приходящихся на один образец. Согласно рекомендациям консорциума ENCODE2, необходимо секвенировать как минимум 30 млн чтений на один образец. С помощью секвенирования желаемой фракции РНК можно установить концентрацию разнообразных транскриптов в популяции клеток. Чем выше экспрессируется та или иная РНК, тем чаще ее транскрипты будут попадать в пробу и тем большее количество чтений в итоге придется на соответствующий ген. От глубины секвенирования зависит итоговое разнообразие молекул малых РНК, которые удастся детектировать в результате эксперимента. При необходимости детектировать продукты заведомо низко экспрессируемых генов следует увеличивать глубину секвенирования.</p><p>Каждое основание каждого чтения детектируется и расшифровывается автоматически. Качество идентификации оснований оценивается с помощью метрики Phred quality score или Q-score, которая логарифмически зависит от вероятности ошибки при распознавании оснований [<xref ref-type="bibr" rid="cit16">16</xref>]. Q-score может принимать значения от 0 до 40. Значение Q-score &lt;20 (т.е. вероятность того, что основание детектировано неверно, составляет &gt;0,01) принято считать неудовлетворительным. Современный уровень коммерческих наборов реагентов, приборов для секвенирования и алгоритмов детекции оснований позволяет получать значения Q-score &gt;30.</p><p>Все вышеописанные характеристики качества чтений могут быть исследованы с помощью программы FastQC3, на вход которой требуется подать одноконцевые или парноконцевые FASTQ файлы. Возможности программы MultiQC4 позволяют создавать удобные отчеты, резюмирующие основные метрики качества сразу для нескольких образцов при необходимости.</p><p>Наличие этапа добавления UMI в ходе пробоподготовки предполагает специфическую биоинформатическую обработку полученных данных. Фрагменты, содержащие одинаковые молекулярные идентификаторы, получены в результате амплификации и должны быть объединены для установления количества чтений, отражающего биологическую представленность соответствующего транскрипта. Одним из наиболее распространенных инструментов для решения этой задачи является UMI-tools [<xref ref-type="bibr" rid="cit17">17</xref>].</p><p>В чтениях могут содержаться и последовательности адаптеров, которые химически пришиваются к комплементарной ДНК в ходе пробоподготовки. Такие последовательности необходимо идентифицировать и удалять с помощью таких программ как Cutadapt5 или Trimmomatic [<xref ref-type="bibr" rid="cit18">18</xref>]. Чтения, несущие технические последовательности, не удастся в дальнейшем картировать на последовательность референса.</p><p>Картирование чтений. Картирование чтений на референсный геном сопряжено с выбором как версии самого генома, так и подходящей программы для картирования. Одной из особенностей геномов эукариот является наличие большого количества повторяющихся последовательностей, что крайне затрудняет процесс сборки генома целиком при использовании коротких прочтений. Подавляющее большинство сборок референсных геномов несут существенный процент пропусков, а также неразрешенные последовательности в областях, обогащенных повторами, в основном это локусы генов рибосомальных РНК, центромер и теломер [<xref ref-type="bibr" rid="cit19">19</xref>]. В наиболее актуальной версии сборки референсного генома человека, GRCh38 (hg38), расшифровано ~93% оснований [<xref ref-type="bibr" rid="cit20">20</xref>]. Варианты сборки референсных геномов обновляются далеко не каждый год, а в случае Homo sapiens выход новой версии сборки является настоящим событием для научно-медицинского сообщества.</p><p>С развитием технологий секвенирования удалось разработать методики, позволяющие сразу расшифровывать длинные фрагменты ДНК, до нескольких тысяч нуклеотидов, хотя и с большим количеством ошибок. С помощью алгоритмической интеграции прочтений разной длины и качества удалось собрать референсный геном человека полностью, от теломеры до теломеры (консорциум "Т2Т", версия — CHM13), разрешив все проблемные локусы на каждой хромосоме [<xref ref-type="bibr" rid="cit20">20</xref>]. Сборка CHM13 была опубликована в 2022г, однако переходить на работу с этой версией, особенно в рамках медицинских исследований, будут еще не один год. Многие базы данных, содержащие информацию о разметках генов, в т.ч. генов малых РНК, патогенных вариантах и прочей аннотации, могут использовать координаты только определенной версии референсного генома. Между версиями сборок координаты не сопоставляются напрямую. Существуют специализированные программы, например, LiftOver, позволяющие конвертировать набор координат, представленный относительно одной версии сборки в любую другую [<xref ref-type="bibr" rid="cit21">21</xref>]. Такой подход, с одной стороны, дает возможность приводить информацию из разных источников к единой версии сборки референсного генома, с другой — может порождать проблемы неоднозначной или неполной конвертации. Выбор версии референсного генома зависит от поставленных задач, актуальности используемых баз данных и необходимости анализировать геномные локусы, обогащенные повторяющимися элементами. С точки зрения исследований малых РНК переход на версию CHM13 может быть вполне логичным, т.к. многие малые РНК, в т.ч. большинство piРНК и часть микроРНК, закодированы в повторах разных классов [<xref ref-type="bibr" rid="cit7">7</xref>].</p><p>Помимо последовательности референсного генома можно использовать последовательность референсного транскриптома и картировать чтения сразу на последовательности известных зрелых транскриптов [<xref ref-type="bibr" rid="cit22">22</xref>]. Использование транскриптома в качестве референса лишает возможности находить новые РНК, что часто бывает актуально при работе с малыми РНК. Однако для многих организмов последовательности референсного генома просто не существует и наличие транскриптома позволяет использовать доступную информацию для проведения исследования. При выборе референса любого типа следует обращать внимание на качество сборки и полноту аннотации. Для подавляющего большинства основных модельных организмов, включая человека, существуют референсные последовательности генома, собранные до хромосом, и транскриптома с аннотацией основной массы генов в хорошем качестве [<xref ref-type="bibr" rid="cit23">23</xref>]. Выбор стратегии картирования зависит от исследователя и поставленных задач.</p><p>Для работы с результатами высокопроизводительного секвенирования необходимо располагать файлами с референсами нужного типа и версии сборки. Стандартно файлы с нуклеотидными последовательностями хранят в формате FASTA [<xref ref-type="bibr" rid="cit24">24</xref>]. На официальном сайте проекта Ensembl6 доступны последовательности референсных геномов разных версий сборок для более чем 50 позвоночных, включая человека, мышь, крысу, свинью и др., а также прочих широко используемых модельных организмов — дрозофила, нематода, данио-рерио и пр. В этом же репозитории можно получить FASTA файлы необходимых транскриптомов для соответствующих организмов.</p><p>В проектах по исследованию транскриптома среди наиболее используемых программ для картирования чтений на референс превалируют программы STAR [<xref ref-type="bibr" rid="cit25">25</xref>] и HISAT2 [<xref ref-type="bibr" rid="cit26">26</xref>]. Особенностью этих программ является наличие параметра, позволяющего картировать чтения с разрывом, что дает возможность учитывать процесс сплайсинга в ходе биоинформатического анализа. Вырезание интронов характерно при созревании белок-кодирующих РНК, а способы процессинга малых РНК значительно отличаются и детекция чтений, попавших на экзон-экзонную границу не актуальна. Тем не менее, в стандартизованном в рамках проекта ENCODE2 биоинформатическом протоколе анализа данных секвенирования малых РНК используют программу STAR, хотя она не всегда показывает лучшие результаты в сравнительных исследованиях [27, 28]. В некоторых протоколах все же используют такие программы для картирования как BWA7 и bowtie28. Выбранную референсную последовательность необходимо проиндексировать, воспользовавшись соответствующей опцией выбранной программы для картирования.</p><p>Результаты картирования чтений на референс хранят в специализированных файлах формата BAM [<xref ref-type="bibr" rid="cit24">24</xref>]. Это бинарные файлы, которые для каждого чтения содержат информацию о положении и количестве мест картирования на референсную последовательность, качестве картирования, редакционном расстоянии, описание картирования в закодированном виде, пользовательские тэги. При парноконцевом типе секвенирования в BAM файлах для каждого чтения сохраняется информация о результате картирования его пары.</p><p>Для работы с бинарными BAM файлами традиционно используют возможности программы Samtools9. Эта программа позволяет быстро получать разного рода сводную информацию, что дает возможность судить о результате картирования. Чтения приемлемого качества являются необходимым, но не достаточным условием успешного анализа. Одной из основных характеристик результатов картирования является процент чтений, нашедших свое место на референсной последовательности. Современный уровень развития лабораторного оборудования при корректном использовании и соблюдении всех мер, обеспечивающих чистоту помещения, позволяют получать &gt;99% чтений, картированных на референс. Более низкий процент может свидетельствовать о контаминации проб материалом из других организмов, например, бактерий или грибов. Еще одной причиной недостаточной доли картированных чтений может быть наличие в них технических последовательностей, которые не были удалены на предыдущих этапах анализа.</p><p>Анализ BAM файлов позволяет выделить последовательности некартированных на целевой референс чтений в явном виде и проанализировать их, например, с помощью возможностей BLAST10. В стандартных протоколах часто используют только уникально картированные чтения, т.е. такие чтения, которые закартированы на референсную последовательность только один раз. Программа Samtools [<xref ref-type="bibr" rid="cit29">29</xref>] позволяет установить процент таких чтений. При детекции большого количества множественно картированных чтений стоит исследовать их отдельно. Такая ситуация может указывать на наличие большого количества рибосомальной РНК в пробе или экспрессии специфических РНК, пришедших из областей генома, обогащенных повторяющимися элементами, что может быть интересно. С помощью Samtools можно сортировать BAM файлы, упорядочивая чтения по координатам картирования или по уникальным идентификаторам чтений в лексикографическом порядке. Также у Samtools есть возможность создания дополнительного файла с индексами, что часто требуют программы на последующих этапах анализа. Рекомендовано хранить сортированные и проиндексированные BAM файлы [<xref ref-type="bibr" rid="cit24">24</xref>].</p><p>Еще одной из часто используемых опций программы Samtools является возможность получать фрагмент BAM файла, содержащий чтения, которые оказались закартированы на определенный геномный локус или набор локусов. Можно получить BAM файл, например, для одной или нескольких хромосом, или для заведомо известных областей, несущих целевые гены. В случае исследования набора целевых локусов следует подать программе Samtools файл с координатами этих участков в формате BED [<xref ref-type="bibr" rid="cit24">24</xref>].</p><p>С помощью Samtools можно конвертировать бинарный BAM файл в текстовый аналог — SAM файл [<xref ref-type="bibr" rid="cit24">24</xref>]. Такие файлы можно просматривать в любом редакторе, однако хранить результаты картирования в файлах формата SAM не рекомендовано, т.к. они занимают значительно больше места и либо не воспринимаются программами для последующего анализа, либо их обработка может занимать значительно больше времени.</p><p>Профиль экспрессии. Следующий этап заключается в получении экспрессионного профиля, характерного для исследуемого образца, т.е. необходимо установить перечень известных генов, для которых детектирована экспрессия. Для этого нужно иметь файл с координатами и аннотацией известных генов. Важно следить, чтобы генная разметка была привязана к координатам выбранной версии референса с соответствующими именами хромосом. На сегодняшний день существует несколько консорциумов, которые занимаются составлением и уточнением генной разметки для разных организмов. В репозитории ENSEMBL6 хранятся файлы с доступной генной разметкой для многих организмов, включая человека и широко используемые модельные организмы. Проект GENCODE1 предоставляет одну из наиболее полных генных разметок для человека и мыши [<xref ref-type="bibr" rid="cit3">3</xref>]. Стоит отметить, что разметка GENCODE последней версии представлена для сборки человеческого генома версии hg38, хорошо аннотирована, включая разметку в рамках неканонических хромосом, также в разметке представлено &gt;20 тыс. генов длинных нкРНК и &gt;7 тыс. генов малых нкРНК разных классов. База данных RefSeq11 и консорциум FANTOM12 также предоставляют свои версии генных разметок генома человека. Крайне важно следить за актуальным состоянием генной разметки, практически все консорциумы публикуют новые версии довольно часто. Так, проект GENCODE обновляет генную разметку генома человека ~2-3 раза/год. Генные разметки из разных источников и между разными релизами обычно минимально отличаются друг от друга по количеству белок-кодирующих генов, но могут драматически не соответствовать друг другу по композиции генов нкРНК. Также стоит обратить внимание на то, что некоторые гены могут изменить свой класс, например, для белок-кодирующей РНК может быть показана некодирующая функция. При формировании протоколов обработки данных удобно получать все необходимые референсные файлы из одного источника. Проект GENCODE предоставляет такую возможность и позволяет для человека и мыши помимо генной аннотации получить в формате fasta последовательность референсного генома, последовательности транскриптов для кодирующих и нкРНК, а также содержит файлы с разнообразной сопроводительной информацией, которая позволяет установить соответствия между идентификаторами транскриптов из разных источников (GENCODE, Ensembl, HGNC и др.). Базы данных Ensembl помимо генной разметки содержат, в т.ч. последовательности референсных геномов, транскриптов и белков. При формировании протоколов обработки данных удобно получать все необходимые референсные файлы из одного источника.</p><p>Для малых РНК существуют специализированные разметки. Одной из самых популярных баз данных, в которой собраны последовательности как еще непроцессированных, так и уже зрелых микроРНК является база miRBase13. В miRBase для человека репортировано &gt;2500 зрелых последовательностей, в то время как в GENCODE1 представлено ~1880 генов микроРНК. Гены piРНК в принципе не представлены практически ни в одной генной разметке от крупных консорциумов, для них также существуют специализированные базы данных, например, piRNAdb14, piRNABank [<xref ref-type="bibr" rid="cit30">30</xref>], piRBase15. Интересным и довольно специфическим классом малых РНК являются circRNA, которые также не представлены в канонических разметках, но координаты их генов можно получить в базах CircBank16, circRNADB [<xref ref-type="bibr" rid="cit31">31</xref>], circAtlas17.</p><p>Реализация протокола секвенирования фракции малых РНК предполагает возможность поиска новых, не идентифицированных ранее, последовательностей малых РНК. Это довольно сложный процесс с алгоритмической точки зрения, тем не менее существует большое количество программ и пакетов, позволяющих искать новые РНК. Программа miRDeep2 [<xref ref-type="bibr" rid="cit32">32</xref>] опирается на данные секвенирования и сопоставляет обнаруженные транскрипты с сигнатурой, характерной для последовательностей предшественников микроРНК. Есть и другие программы с аналогичными функциями: miRNAFold [<xref ref-type="bibr" rid="cit33">33</xref>], Mirnovo [<xref ref-type="bibr" rid="cit34">34</xref>] и пр.</p><p>Разметка генов обычно хранится в файлах формата GTF или GFF [<xref ref-type="bibr" rid="cit24">24</xref>]. Это текстовые файлы, состоящие из 9 обязательных колонок. Из этих файлов можно получить информацию о координатах гена (имя хромосомы, начало и конец локуса), цепи, на которой закодирован ген, типе и идентификаторе гена. Структура GTF/GFF файлов позволяет хранить информацию не только о гене, но и обо всех его транскриптах, экзонах, старт- и стоп-кодонах, нетранслируемых областях (untranslated region, UTR), кодирующей последовательности (coding sequence, CDS). Тип аннотируемого локуса указан в третьей колонке (feature).</p><p>Для создания экспрессионного профиля образца существует несколько программ. Одна из самых распространенных и удобных в использовании программ для работы с данными секвенирования РНК — Htseq-count18, реализованная в рамках программы HTSeq. Однако для аннотации малых РНК Htseq-count может не подойти, т.к. программа работает только с уникально картированными чтениями и не способна разрешить случаи, когда чтение попадает на пересечение ≥2 аннотированных локусов. Гены малых РНК часто закодированы в нескольких копиях и могут быть расположены в интронах более длинных генов.</p><p>Альтернативой Htseq-count может послужить программа featureCounts19, которая доступна как самостоятельная программа и как реализация на языке R в рамках пакета Rsubread20. С помощью featureCounts можно обрабатывать множественно картированные, химерные, цепь-специфичные чтения, а также разрешать ситуации пересечений в генной разметке и добавлять дополнительные настройки параметров квантификации. Вне зависимости от выбора программы в результате получают текстовый файл, где напротив каждого идентификатора из генной разметки указано число чтений, которые были закартированы в рамках соответствующего локуса, согласно выбранным параметрам аннотации. Htseq-count и featureCounts используют довольно схожие процедуры и приводят к очень схожим результатам, с расхождением &lt;0,1% [<xref ref-type="bibr" rid="cit35">35</xref>].</p><p>Для выявления малых РНК, которые могли бы являться маркерами интересующих состояний, необходимо заранее разработать соответствующий дизайн исследования [<xref ref-type="bibr" rid="cit36">36</xref>]. Целью такого исследования является поиск малых РНК, уровень экспрессии которых был бы выше в образцах определенного фенотипа, чем в контрольной группе. Предварительно необходимо тщательно отобрать образцы, которые могли бы составить целевую и контрольные группы приемлемого размера. Крайне важно следить за тем, чтобы сравниваемые выборки были равномерно нагружены метахарактеристиками, не касающимися предмета сравнения. Например, если образцы биологического материала получают от пациентов и здоровых добровольцев, то количество человек, половое, этническое и возрастное разнообразие, наличие сопутствующих заболеваний и пр. характеристики, поддающиеся контролю, должны быть максимально одинаково распределены в итоговых выборках.</p><p>Затем для каждого образца из выборки следует единообразно реализовать забор материала, пробоподготовку, секвенирование и рассчитать профиль экспрессии, как обсуждалось ранее. После чего проводится анализ, который выявляет статистически значимо дифференциально экспрессируемые гены. Реализовать этот анализ можно, например, с помощью такого пакета на языке R как DESeq221. Одной из ключевых алгоритмических особенностей пакета DESeq2 является нормализация данных, которая корректирует различия в глубине секвенирования между образцами и стабилизирует дисперсию. Такой подход к нормализации позволяет повысить качество данных, учитывая возможные технические различия и естественную дисперсию в экспрессии индивидуальных генов, присущую всем живым организмам. Существуют альтернативные пакеты для анализа дифференциальной экспрессии (например, edger22, limma23), которые отличаются алгоритмическими подходами в реализации задач нормализации и сравнения. Использование разных подходов (DESeq2, edger, limma) привело к получению разного количества дифференциально экспрессируемых транскриптов, с максимальным количеством для DESeq2 и минимальным для limma [<xref ref-type="bibr" rid="cit27">27</xref>].</p><p>Функциональный анализ. В случае выявления дифференциально экспрессирующихся микроРНК следующим логичным шагом исследования может стать поиск специфических мишеней этих микроРНК. Каждая отдельная микроРНК может регулировать сотни мишеней [<xref ref-type="bibr" rid="cit37">37</xref>]. Как эпигенетические регуляторы зрелые микроРНК могут комплементарно взаимодействовать с транскриптами белок-кодирующих генов, что потенциально приводит к деградации мРНК, либо блокирует процессы трансляции [<xref ref-type="bibr" rid="cit38">38</xref>]. С другой стороны, индивидуальные мРНК могут взаимодействовать с несколькими микроРНК. Однако в отличие от растений, у животных для осуществления регуляции не требуется установления полной комплементарности между микроРНК и ее мишенями, что существенно затрудняет детекцию соответствующего функционального сайта связывания [<xref ref-type="bibr" rid="cit10">10</xref>].</p><p>Доступные методы предсказания мишеней микроРНК используют информацию об их последовательности, учитывая комплементарность, эволюционную консервативность сайта связывания, а также доступность этого сайта. Примерами вычислительных инструментов могут служить TargetScanHuman24, RNAhybrid25, miRanda [<xref ref-type="bibr" rid="cit39">39</xref>] и многие другие. На сегодняшний день разработано большое количество программ для поиска возможных мишеней микроРНК, включая алгоритмы, использующие подходы машинного обучения [<xref ref-type="bibr" rid="cit40">40</xref>][<xref ref-type="bibr" rid="cit41">41</xref>]. Существуют базы данных, где уже собраны потенциальные пары микроРНК-мРНК для разных организмов.</p><p>Установление мишеней отдельных микроРНК не гарантирует понимания их функций. Для этого используют подход, подразумевающий, что микроРНК как регуляторы генной экспрессии, принимают участие в тех же биологических процессах, что и их целевые мРНК. Соответственно необходимо функционально проаннотировать мРНК и на основании полученных результатов сделать вывод о функциях микроРНК. Эту задачу можно решить с помощью анализа обогащения, который реализован в пакетах для языка R и веб-сервисах, например, MSigDB26. Существует довольно много подходов, сервисов и пакетов, позволяющих по-разному посмотреть на анализ обогащения [<xref ref-type="bibr" rid="cit42">42</xref>]. Наиболее часто анализ обогащения реализуют для баз данных метаболических путей Kyoto Encyclopedia of Genes and Genomes (KEGG)27, а также по коллекции функциональных аннотаций Gene ontology (GO)28.</p></sec><sec><title>Заключение</title><p>Малые нкРНК играют важную регуляторную роль в жизнедеятельности клетки в норме и патологии. Исследования по использованию малых нкРНК в качестве биомаркеров заболеваний, терапевтических агентов или мишеней без сомнения представляют большой интерес для биомедицинской науки. Использование технологий высокопроизводительного секвенирования сопряжено с необходимостью разработки стандартизованных биоинформатических протоколов анализа полученных данных. При реализации таких протоколов можно выявить и до некоторой степени устранить возможные ошибки, допущенные в ходе пробоподготовки. Корректно спланированный биоинформатический анализ обеспечивает гарантию качества и воспроизводимости полученных результатов.</p><p>Отношения и деятельность: все авторы заявляют об отсутствии потенциального конфликта интересов, требующего раскрытия в данной статье.</p><p>1 GENCODE. https://www.gencodegenes.org/ (13 September 2024).2 ENCODE. https://www.encodeproject.org/ (13 September 2024).3 FastQC. https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (13 September 2024).4 MultiQC. https://seqera.io/multiqc/ (13 September 2024).5 Cutadapt. https://cutadapt.readthedocs.io/en/stable/# (13 September 2024).6 Ensembl genome browser. https://www.ensembl.org/index.html (13 September 2024).7 Burrows-Wheeler Aligner (BWA) https://bio-bwa.sourceforge.net/ (13 September 2024).8 Bowtie 2. https://bowtie-bio.sourceforge.net/bowtie2/index.shtml (13 September 2024).9 Samtools. https://www.htslib.org/ (13 September 2024).10 BLAST. https://blast.ncbi.nlm.nih.gov/Blast.cgi (13 September 2024).11 RefSeq database. https://www.ncbi.nlm.nih.gov/refseq/ (13 September 2024).12 FANTOM consortium. https://fantom.gsc.riken.jp/ (13 September 2024).13 MicroRNA database (miRBase). http://www.mirbase.org/ (13 September 2024).14 PIWI-interacting RNA (piRNA) Database (piRNAdb). https://www.pirnadb.org/index (13 September 2024).15 piRBase. http://bigdata.ibp.ac.cn/piRBase/ (13 September 2024).16 CircBank Database. http://www.circbank.cn/ (13 September 2024).17 circAtlas 3.0 resource. http://circatlas.biols.ac.cn/ (13 September 2024).18 Htseq-count. https://htseq.readthedocs.io/en/release_0.11.1/count. html (13 September 2024).19 featureCounts. https://subread.sourceforge.net/featureCounts.html (13 September 2024).20 Rsubread R package. https://bioconductor.org/packages/release/bioc/html/Rsubread.html (13 September 2024).21 DESeq2 R package. https://bioconductor.org/packages/release/bioc/html/DESeq2.html (13 September 2024).22 edgeR R package. https://bioconductor.org/packages/release/bioc/html/edgeR.html (13 September 2024).23 limma R package. https://bioconductor.org/packages/release/bioc/html/limma.html (13 September 2024).24 TargetScanHuman. https://www.targetscan.org/vert_80/ (13 September 2024).25 RNAhybrid. https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid/ (13 September 2024).26 Molecular signatures database (MSigDB). https://www.gsea-msigdb.org/gsea/msigdb (13 September 2024).27 Kyoto Encyclopedia of Genes and Genomes (KEGG). https://www.genome.jp/kegg/ (13 September 2024).28 Gene ontology (GO) resource. https://geneontology.org/ (13 September 2024).</p></sec></body><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Shi J, Zhou T, Chen Q. Exploring the expanding universe of small RNAs. Nat Cell Biol. 2022;24:415-23. doi:10.1038/s41556-022-00880-5.</mixed-citation><mixed-citation xml:lang="en">Shi J, Zhou T, Chen Q. Exploring the expanding universe of small RNAs. Nat Cell Biol. 2022;24: 415–423. doi:10.1038/s41556-022-00880-5</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Kopp F, Mendell JT. Functional classification and experimental dissection of long noncoding RNAs. Cell. 2018;172:393-407. doi:10.1016/j.cell.2018.01.011.</mixed-citation><mixed-citation xml:lang="en">Kopp F, Mendell JT. Functional classification and experimental dissection of long noncoding RNAs. Cell. 2018;172: 393–407. doi:10.1016/j.cell.2018.01.011</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Frankish A, Carbonell-Sala S, Diekhans M, et al. GENCODE: reference annotation for the human and mouse genomes in 2023. Nucleic Acids Res. 2023;51:D942-9. doi:10.1093/nar/gkac1071.</mixed-citation><mixed-citation xml:lang="en">Frankish A, Carbonell-Sala S, Diekhans M, Jungreis I, Loveland JE, Mudge JM, et al. GENCODE: reference annotation for the human and mouse genomes in 2023. Nucleic Acids Res. 2023;51: D942–D949. doi:10.1093/nar/gkac1071</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Fazmin IT, Achercouk Z, Edling CE, et al. Circulating microRNA as a biomarker for coronary artery disease. Biomolecules. 2020;10: 1354. doi:10.3390/biom10101354.</mixed-citation><mixed-citation xml:lang="en">Fazmin IT, Achercouk Z, Edling CE, Said A, Jeevaratnam K. Circulating microRNA as a biomarker for coronary artery disease. Biomolecules. 2020;10: 1354. doi:10.3390/biom10101354</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Cui M, Wang H, Yao X, et al. Circulating MicroRNAs in cancer: Potential and challenge. Front Genet. 2019;10:626. doi:10.3389/fgene.2019.00626.</mixed-citation><mixed-citation xml:lang="en">Cui M, Wang H, Yao X, Zhang D, Xie Y, Cui R, et al. Circulating MicroRNAs in cancer: Potential and challenge. Front Genet. 2019;10: 626. doi:10.3389/fgene.2019.00626</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Grasso M, Piscopo P, Confaloni A, et al. Circulating miRNAs as biomarkers for neurodegenerative disorders. Molecules. 2014; 19:6891-910. doi:10.3390/molecules19056891.</mixed-citation><mixed-citation xml:lang="en">Grasso M, Piscopo P, Confaloni A, Denti MA. Circulating miRNAs as biomarkers for neurodegenerative disorders. Molecules. 2014;19: 6891–6910. doi:10.3390/molecules19056891</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Zharikova AA, Mironov AA. piRNAs: Biology and Bioinformatics. Mol Biol (Mosk). 2016;50:80-8. doi:10.7868/S0026898416010225.</mixed-citation><mixed-citation xml:lang="en">Zharikova AA, Mironov AA. piRNAs: Biology and Bioinformatics. Mol Biol (Mosk). 2016;50: 80–88. doi:10.7868/S0026898416010225</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Choudhuri S. Small noncoding RNAs: biogenesis, function, and emerging significance in toxicology. J Biochem Mol Toxicol. 2010;24:195-216. doi:10.1002/jbt.20325.</mixed-citation><mixed-citation xml:lang="en">Choudhuri S. Small noncoding RNAs: biogenesis, function, and emerging significance in toxicology. J Biochem Mol Toxicol. 2010;24: 195–216. doi:10.1002/jbt.20325</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Lee RC, Feinbaum RL, Ambros V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 1993;75:843-54. doi:10.1016/0092-8674(93)90529-y.</mixed-citation><mixed-citation xml:lang="en">Lee RC, Feinbaum RL, Ambros V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 1993;75: 843–854. doi:10.1016/0092-8674(93)90529-y</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell. 2004;116:281-97. doi:10.1016/s0092-8674(04)00045-5.</mixed-citation><mixed-citation xml:lang="en">Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell. 2004;116: 281–297. doi:10.1016/s0092-8674(04)00045-5</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">McAlexander MA, Phillips MJ, Witwer KW. Comparison of methods for miRNA extraction from plasma and quantitative recovery of RNA from cerebrospinal fluid. Front Genet. 2013;4:83. doi:10.3389/fgene.2013.00083.</mixed-citation><mixed-citation xml:lang="en">Hu T, Chitnis N, Monos D, Dinh A. Next-generation sequencing technologies: An overview. Hum Immunol. 2021;82: 801–811. doi:10.1016/j.humimm.2021.02.012</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Page K, Guttery DS, Zahra N, et al. Influence of plasma processing on recovery and analysis of circulating nucleic acids. PLoS One. 2013;8:e77963. doi:10.1371/journal.pone.0077963.</mixed-citation><mixed-citation xml:lang="en">Ewing B, Hillier L, Wendl MC, Green P. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res. 1998;8: 175–185. doi:10.1101/gr.8.3.175</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Wong RKY, MacMahon M, Woodside JV, et al. A comparison of RNA extraction and sequencing protocols for detection of small RNAs in plasma. BMC Genomics. 2019;20:446. doi:10.1186/s12864-019-5826-7.</mixed-citation><mixed-citation xml:lang="en">Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30: 2114–2120. doi:10.1093/bioinformatics/btu170</mixed-citation></citation-alternatives></ref><ref id="cit14"><label>14</label><citation-alternatives><mixed-citation xml:lang="ru">Sorefan K, Pais H, Hall AE, et al. Reducing ligation bias of small RNAs in libraries for next generation sequencing. Silence. 2012;3:4. doi:10.1186/1758-907X-3-4.</mixed-citation><mixed-citation xml:lang="en">Miga KH, Newton Y, Jain M, Altemose N, Willard HF, Kent WJ. Centromere reference models for human chromosomes X and Y satellite arrays. Genome Res. 2014;24: 697–707. doi:10.1101/gr.159624.113</mixed-citation></citation-alternatives></ref><ref id="cit15"><label>15</label><citation-alternatives><mixed-citation xml:lang="ru">Hu T, Chitnis N, Monos D, Dinh A. Next-generation sequencing technologies: An overview. Hum Immunol. 2021;82:801-11. doi:10.1016/j.humimm.2021.02.012.</mixed-citation><mixed-citation xml:lang="en">Aganezov S, Yan SM, Soto DC, Kirsche M, Zarate S, Avdeyev P, et al. A complete reference genome improves analysis of human genetic variation. Science. 2022;376: eabl3533. doi:10.1126/science.abl3533</mixed-citation></citation-alternatives></ref><ref id="cit16"><label>16</label><citation-alternatives><mixed-citation xml:lang="ru">Ewing B, Hillier L, Wendl MC, et al. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res. 1998;8:175-85. doi:10.1101/gr.8.3.175.</mixed-citation><mixed-citation xml:lang="en">Luu P-L, Ong P-T, Dinh T-P, Clark SJ. Benchmark study comparing liftover tools for genome conversion of epigenome sequencing data. NAR Genom Bioinform. 2020;2: lqaa054. doi:10.1093/nargab/lqaa054</mixed-citation></citation-alternatives></ref><ref id="cit17"><label>17</label><citation-alternatives><mixed-citation xml:lang="ru">Smith T, Heger A, Sudbery I. UMI-tools: modeling sequencing errors in Unique Molecular Identifiers to improve quantification accuracy. Genome Res. 2017;27:491-9. doi:10.1101/gr.209601.116.</mixed-citation><mixed-citation xml:lang="en">Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016;17: 13. doi:10.1186/s13059-016-0881-8</mixed-citation></citation-alternatives></ref><ref id="cit18"><label>18</label><citation-alternatives><mixed-citation xml:lang="ru">Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30:2114-20. doi:10.1093/bioinformatics/btu170.</mixed-citation><mixed-citation xml:lang="en">Harrison PW, Amode MR, Austine-Orimoloye O, Azov AG, Barba M, Barnes I, et al. Ensembl 2024. Nucleic Acids Res. 2024;52: D891–D899. doi:10.1093/nar/gkad1049</mixed-citation></citation-alternatives></ref><ref id="cit19"><label>19</label><citation-alternatives><mixed-citation xml:lang="ru">Miga KH, Newton Y, Jain M, et al. Centromere reference models for human chromosomes X and Y satellite arrays. Genome Res. 2014;24:697-707. doi:10.1101/gr.159624.113.</mixed-citation><mixed-citation xml:lang="en">Zhang H. Overview of sequence data formats. Methods Mol Biol. 2016;1418: 3–17. doi:10.1007/978-1-4939-3578-9_1</mixed-citation></citation-alternatives></ref><ref id="cit20"><label>20</label><citation-alternatives><mixed-citation xml:lang="ru">Aganezov S, Yan SM, Soto DC, et al. A complete reference genome improves analysis of human genetic variation. Science. 2022;376:eabl3533. doi:10.1126/science.abl3533.</mixed-citation><mixed-citation xml:lang="en">Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29: 15–21. doi:10.1093/bioinformatics/bts635</mixed-citation></citation-alternatives></ref><ref id="cit21"><label>21</label><citation-alternatives><mixed-citation xml:lang="ru">Luu P-L, Ong P-T, Dinh T-P, et al. Benchmark study comparing liftover tools for genome conversion of epigenome sequencing data. NAR Genom Bioinform. 2020;2:lqaa054. doi:10.1093/nargab/lqaa054.</mixed-citation><mixed-citation xml:lang="en">Kim D, Paggi JM, Park C, Bennett C, Salzberg SL. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol. 2019;37: 907–915. doi:10.1038/s41587-019-0201-4</mixed-citation></citation-alternatives></ref><ref id="cit22"><label>22</label><citation-alternatives><mixed-citation xml:lang="ru">Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016;17:13. doi:10.1186/s13059-016-0881-8.</mixed-citation><mixed-citation xml:lang="en">Danecek P, Bonfield JK, Liddle J, Marshall J, Ohan V, Pollard MO, et al. Twelve years of SAMtools and BCFtools. Gigascience. 2021;10. doi:10.1093/gigascience/giab008</mixed-citation></citation-alternatives></ref><ref id="cit23"><label>23</label><citation-alternatives><mixed-citation xml:lang="ru">Harrison PW, Amode MR, Austine-Orimoloye O, et al. Ensembl 2024. Nucleic Acids Res. 2024;52:D891-9. doi:10.1093/nar/gkad1049.</mixed-citation><mixed-citation xml:lang="en">Sai Lakshmi S, Agrawal S. piRNABank: a web resource on classified and clustered Piwi-interacting RNAs. Nucleic Acids Res. 2008;36: D173–7. doi:10.1093/nar/gkm696</mixed-citation></citation-alternatives></ref><ref id="cit24"><label>24</label><citation-alternatives><mixed-citation xml:lang="ru">Zhang H. Overview of sequence data formats. Methods Mol Biol. 2016;1418:3-17. doi:10.1007/978-1-4939-3578-9_1.</mixed-citation><mixed-citation xml:lang="en">Chen X, Han P, Zhou T, Guo X, Song X, Li Y. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations. Sci Rep. 2016;6. doi:10.1038/srep34985</mixed-citation></citation-alternatives></ref><ref id="cit25"><label>25</label><citation-alternatives><mixed-citation xml:lang="ru">Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29:15-21. doi:10.1093/bioinformatics/bts635.</mixed-citation><mixed-citation xml:lang="en">Friedländer MR, Mackowiak SD, Li N, Chen W, Rajewsky N. miRDeep2 accurately identifies known and hundreds of novel microRNA genes in seven animal clades. Nucleic Acids Res. 2012;40: 37–52. doi:10.1093/nar/gkr688</mixed-citation></citation-alternatives></ref><ref id="cit26"><label>26</label><citation-alternatives><mixed-citation xml:lang="ru">Kim D, Paggi JM, Park C, et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol. 2019;37:907-15. doi:10.1038/s41587-019-0201-4.</mixed-citation><mixed-citation xml:lang="en">Tav C, Tempel S, Poligny L, Tahi F. miRNAFold: a web server for fast miRNA precursor prediction in genomes. Nucleic Acids Res. 2016;44: W181–4. doi:10.1093/nar/gkw459</mixed-citation></citation-alternatives></ref><ref id="cit27"><label>27</label><citation-alternatives><mixed-citation xml:lang="ru">Bezuglov V, Stupnikov A, Skakov I, et al. Approaches for sRNA analysis of human RNA-seq data: Comparison, benchmarking. Int J Mol Sci. 2023;24:4195. doi:10.3390/ijms24044195.</mixed-citation><mixed-citation xml:lang="en">Vitsios DM, Kentepozidou E, Quintais L, Benito-Gutiérrez E, van Dongen S, Davis MP, et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Res. 2017;45: e177. doi:10.1093/nar/gkx836</mixed-citation></citation-alternatives></ref><ref id="cit28"><label>28</label><citation-alternatives><mixed-citation xml:lang="ru">Ziemann M, Kaspi A, El-Osta A. Evaluation of microRNA alignment techniques. RNA. 2016;22:1120-38. doi:10.1261/rna.055509.115.</mixed-citation><mixed-citation xml:lang="en">Chatterjee A, Ahn A, Rodger EJ, Stockwell PA, Eccles MR. A guide for designing and analyzing RNA-Seq data. Methods Mol Biol. 2018;1783: 35–80. doi:10.1007/978-1-4939-7834-2_3</mixed-citation></citation-alternatives></ref><ref id="cit29"><label>29</label><citation-alternatives><mixed-citation xml:lang="ru">Danecek P, Bonfield JK, Liddle J, et al. Twelve years of SAMtools and BCFtools. Gigascience. 2021;10. doi:10.1093/gigascience/giab008.</mixed-citation><mixed-citation xml:lang="en">Hans FP, Moser M, Bode C, Grundmann S. MicroRNA regulation of angiogenesis and arteriogenesis. Trends Cardiovasc Med. 2010;20: 253–262. doi:10.1016/j.tcm.2011.12.001</mixed-citation></citation-alternatives></ref><ref id="cit30"><label>30</label><citation-alternatives><mixed-citation xml:lang="ru">Sai Lakshmi S, Agrawal S. piRNABank: a web resource on classified and clustered Piwi-interacting RNAs. Nucleic Acids Res. 2008;36:D173-7. doi:10.1093/nar/gkm696.</mixed-citation><mixed-citation xml:lang="en">Khan J, Lieberman JA, Lockwood CM. Variability in, variability out: best practice recommendations to standardize pre-analytical variables in the detection of circulating and tissue microRNAs. Clin Chem Lab Med. 2017;55: 608–621. doi:10.1515/cclm-2016-0471</mixed-citation></citation-alternatives></ref><ref id="cit31"><label>31</label><citation-alternatives><mixed-citation xml:lang="ru">Chen X, Han P, Zhou T, et al. circRNADb: A comprehensive data-base for human circular RNAs with protein-coding annotations. Sci Rep. 2016;6. doi:10.1038/srep34985.</mixed-citation><mixed-citation xml:lang="en">Enright A, John B, Gaul U, Tuschl T, Sander C, Marks D. MicroRNA Targets in Drosophila. Genome Biol. 2003;4: P8. doi:10.1186/gb-2003-4-11-p8</mixed-citation></citation-alternatives></ref><ref id="cit32"><label>32</label><citation-alternatives><mixed-citation xml:lang="ru">Friedländer MR, Mackowiak SD, Li N, et al. miRDeep2 accurately identifies known and hundreds of novel microRNA genes in seven animal clades. Nucleic Acids Res. 2012;40:37-52. doi:10.1093/nar/gkr688.</mixed-citation><mixed-citation xml:lang="en">Friedländer MR, Mackowiak SD, Li N, et al. miRDeep2 accurately identifies known and hundreds of novel microRNA genes in seven animal clades. Nucleic Acids Res. 2012;40:37-52. doi:10.1093/nar/gkr688.</mixed-citation></citation-alternatives></ref><ref id="cit33"><label>33</label><citation-alternatives><mixed-citation xml:lang="ru">Tav C, Tempel S, Poligny L, et al. miRNAFold: a web server for fast miRNA precursor prediction in genomes. Nucleic Acids Res. 2016;44:W181-4. doi:10.1093/nar/gkw459.</mixed-citation><mixed-citation xml:lang="en">Tav C, Tempel S, Poligny L, et al. miRNAFold: a web server for fast miRNA precursor prediction in genomes. Nucleic Acids Res. 2016;44:W181-4. doi:10.1093/nar/gkw459.</mixed-citation></citation-alternatives></ref><ref id="cit34"><label>34</label><citation-alternatives><mixed-citation xml:lang="ru">Vitsios DM, Kentepozidou E, Quintais L, et al. Mirnovo: genomefree prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Res. 2017;45:e177. doi:10.1093/nar/gkx836.</mixed-citation><mixed-citation xml:lang="en">Vitsios DM, Kentepozidou E, Quintais L, et al. Mirnovo: genomefree prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Res. 2017;45:e177. doi:10.1093/nar/gkx836.</mixed-citation></citation-alternatives></ref><ref id="cit35"><label>35</label><citation-alternatives><mixed-citation xml:lang="ru">Agnelli L, Bortoluzzi S, Pruneri G. Bioinformatic pipelines to analyze lncRNAs RNAseq data. Methods Mol Biol. 2021;2348:55-69. doi:10.1007/978-1-0716-1581-2_4.</mixed-citation><mixed-citation xml:lang="en">Agnelli L, Bortoluzzi S, Pruneri G. Bioinformatic pipelines to analyze lncRNAs RNAseq data. Methods Mol Biol. 2021;2348:55-69. doi:10.1007/978-1-0716-1581-2_4.</mixed-citation></citation-alternatives></ref><ref id="cit36"><label>36</label><citation-alternatives><mixed-citation xml:lang="ru">Chatterjee A, Ahn A, Rodger EJ, et al. A guide for designing and analyzing RNA-Seq data. Methods Mol Biol. 2018;1783:35-80. doi:10.1007/978-1-4939-7834-2_3.</mixed-citation><mixed-citation xml:lang="en">Chatterjee A, Ahn A, Rodger EJ, et al. A guide for designing and analyzing RNA-Seq data. Methods Mol Biol. 2018;1783:35-80. doi:10.1007/978-1-4939-7834-2_3.</mixed-citation></citation-alternatives></ref><ref id="cit37"><label>37</label><citation-alternatives><mixed-citation xml:lang="ru">Hans FP, Moser M, Bode C, et al. MicroRNA regulation of angiogenesis and arteriogenesis. Trends Cardiovasc Med. 2010;20:253-62. doi:10.1016/j.tcm.2011.12.001.</mixed-citation><mixed-citation xml:lang="en">Hans FP, Moser M, Bode C, et al. MicroRNA regulation of angiogenesis and arteriogenesis. Trends Cardiovasc Med. 2010;20:253-62. doi:10.1016/j.tcm.2011.12.001.</mixed-citation></citation-alternatives></ref><ref id="cit38"><label>38</label><citation-alternatives><mixed-citation xml:lang="ru">Khan J, Lieberman JA, Lockwood CM. Variability in, variability out: best practice recommendations to standardize pre-analytical variables in the detection of circulating and tissue microRNAs. Clin Chem Lab Med. 2017;55:608-21. doi:10.1515/cclm-2016-0471.</mixed-citation><mixed-citation xml:lang="en">Khan J, Lieberman JA, Lockwood CM. Variability in, variability out: best practice recommendations to standardize pre-analytical variables in the detection of circulating and tissue microRNAs. Clin Chem Lab Med. 2017;55:608-21. doi:10.1515/cclm-2016-0471.</mixed-citation></citation-alternatives></ref><ref id="cit39"><label>39</label><citation-alternatives><mixed-citation xml:lang="ru">Enright A, John B, Gaul U, et al. MicroRNA Targets in Drosophila. Genome Biol. 2003;4:P8. doi:10.1186/gb-2003-4-11-p8.</mixed-citation><mixed-citation xml:lang="en">Enright A, John B, Gaul U, et al. MicroRNA Targets in Drosophila. Genome Biol. 2003;4:P8. doi:10.1186/gb-2003-4-11-p8.</mixed-citation></citation-alternatives></ref><ref id="cit40"><label>40</label><citation-alternatives><mixed-citation xml:lang="ru">Agarwal V, Bell GW, Nam J-W, et al. Predicting effective microRNA target sites in mammalian mRNAs. Elife. 2015;4. doi:10.7554/eLife.05005.</mixed-citation><mixed-citation xml:lang="en">Agarwal V, Bell GW, Nam J-W, et al. Predicting effective microRNA target sites in mammalian mRNAs. Elife. 2015;4. doi:10.7554/eLife.05005.</mixed-citation></citation-alternatives></ref><ref id="cit41"><label>41</label><citation-alternatives><mixed-citation xml:lang="ru">Cihan M, Andrade-Navarro MA. Detection of features predictive of microRNA targets by integration of network data. PLoS One. 2022;17:e0269731. doi:10.1371/journal.pone.0269731.</mixed-citation><mixed-citation xml:lang="en">Cihan M, Andrade-Navarro MA. Detection of features predictive of microRNA targets by integration of network data. PLoS One. 2022;17:e0269731. doi:10.1371/journal.pone.0269731.</mixed-citation></citation-alternatives></ref><ref id="cit42"><label>42</label><citation-alternatives><mixed-citation xml:lang="ru">Geistlinger L, Csaba G, Santarelli M, et al. Toward a gold standard for benchmarking gene set enrichment analysis. Brief Bioinform. 2021;22:545-56. doi:10.1093/bib/bbz158.</mixed-citation><mixed-citation xml:lang="en">Geistlinger L, Csaba G, Santarelli M, et al. Toward a gold standard for benchmarking gene set enrichment analysis. Brief Bioinform. 2021;22:545-56. doi:10.1093/bib/bbz158.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
