Preview

Кардиоваскулярная терапия и профилактика

Расширенный поиск

Выбор признаков для моделирования риска летальных исходов больных после перенесённого инфаркта миокарда или нестабильной стенокардии

https://doi.org/10.15829/1728-8800-2025-4102

EDN: OSZDEY

Содержание

Перейти к:

Аннотация

Цель. Выявление основных предикторов летального исхода на основании региональной базы данных больных с инфарктом миокарда (ИМ) или нестабильной стенокардией (НС).

Материал и методы. В ретроспективном исследовании приняли участие 1515 больных с НС и ИМ, что составило 55,3% больных, пролеченных в период 2012-2016гг. Медиана наблюдения — 62 [36; 71] мес. Критерий осложнённого течения ишемической болезни сердца — летальный исход. 1 группу составили 238 больных с летальным исходом от ишемической болезни сердца, 2 группу составили 1277 больных с благоприятным исходом. Все полученные данные были структурированы в виде файла Excel. Из медицинских карт извлекались переменные, доступные большинству лечебных учреждений (исключение — данные коронарографии). Для автоматического выделения признаков использовался ансамблевый алгоритм машинного обучения, разработанный компанией Яндекс — CatBoost (Categorical Boosting).

Результаты. Летальность за 62 мес. наблюдения составила 15,4%. В исследовании использовали 47 количественных и качественных (категориальных) признаков. Фильтрационный метод отбора выделил значимые количественные признаки: возраст, фракция выброса (ФВ) левого желудочка (ЛЖ), скорость клубочковой фильтрации, креатинин, индекс массы тела, рост, вес, площадь поверхности тела (ППТ), эритроциты, гемоглобин, глюкоза, общий холестерин (ХС), ХС липопротеинов низкой плотности, ХС липопротеинов высокой плотности, частота сердечных сокращений, индекс конечного диастолического объёма ЛЖ, индекс конечного систолического объёма ЛЖ, систолическое давление в лёгочной артерии; категориальные признаки: хроническая сердечная недостаточность (ХСН), класс сердечной недостаточности по классификации Killip T, Kimballe J, 1967 (Killip), постинфарктный кардиосклероз, коморбидность, хроническая болезнь почек, стенокардия, сахарный диабет, фибрилляция предсердий, положительные тропонины, девиация S-T, коронарография, чрескожное коронарное вмешательство, нозология (НС, передний или нижний ИМ). Автоматический метод выбора признаков с помощью алгоритма машинного обучения выявил наиболее значимые признаки, определяющие вероятность летального исхода: возраст, ФВ ЛЖ, ППТ, уровень креатинина, систолическое артериальное давление, ХСН, коморбидность, нозология.

Заключение. Из медицинской карты больных ИМ и НС отобрано 47 доступных клинических признаков. Наиболее существенными для прогноза летального исхода по результатам машинного отбора оказались 8: возраст, ФВ ЛЖ, ППТ, уровень креатинина, систолическое артериальное давление, ХСН, коморбидность, нозология.

Для цитирования:


Швец Д.А., Поветкин С.В. Выбор признаков для моделирования риска летальных исходов больных после перенесённого инфаркта миокарда или нестабильной стенокардии. Кардиоваскулярная терапия и профилактика. 2025;24(3):4102. https://doi.org/10.15829/1728-8800-2025-4102. EDN: OSZDEY

For citation:


Shvets D.A., Povetkin S.V. Selection of features for modeling the risk of fatal outcomes in patients after myocardial infarction or unstable angina. Cardiovascular Therapy and Prevention. 2025;24(3):4102. (In Russ.) https://doi.org/10.15829/1728-8800-2025-4102. EDN: OSZDEY

Введение

Накопление больших данных в кардиологии стимулирует развитие персонализированной медицины. Для создания работоспособной модели машинного обучения (МО) важно как количество, так и качество данных, характеризующих патогенез изучаемого явления [1-3]. Необходимым условием качества данных является их разнообразие и репрезентативность.

Процедура выбора наиболее значимых признаков из исходного набора данных для использования в модели МО преследует несколько целей: улучшение производительности модели (удаление нерелевантных, малозначимых и шумовых признаков, уменьшение вероятности переобучения), упрощение вычислений (ускорение процесса обучения), улучшение интерпретируемости модели [1][4][5].

Существуют различные методы отбора переменных. Наиболее простой фильтрационный метод основан на статистических метриках, оценивающих важность каждого признака независимо от других. Более сложные алгоритмы оценки релевантности и выбора признаков основаны на построении моделей с использованием различных комбинаций признаков и оценке их качества [1][4-8].

Риск летальных осложнений у больных после инфаркта миокарда (ИМ) и нестабильной стенокардии (НС) принято оценивать по различным шкалам. Наиболее используемая — GRACE (Global Registry of Acute Coronary Events), которая была разработана >20 лет назад и модифицирована в 2014г (GRACE 2.0) [9-11]. Для разработки шкалы изучались данные больных ИМ и НС Европы, Северной и Южной Америки, Австралии и Новой Зеландии [9]. Репрезентативные данные должны представлять все группы населения. Кроме того, важно учитывать изменение характера нозологии и тяжести острого коронарного синдрома за последние годы [12][13].

В РФ регистровые исследования, изучающие большие данные пациентов после ИМ и НС немногочисленны [14-16]. Для увеличения репрезентативности данных целесообразно включать больных различных регионов.

Цель исследования — выявление основных предикторов летального исхода на основании региональной базы данных больных ИМ или НС.

Материал и методы

Вопрос этики и конфиденциальности является одним из основных принципов работы с большими данными [12]. Исследование было выполнено в соответствии со стандартами надлежащей клинической практики и принципами Хельсинкской декларации. Протокол исследования был одобрен этическим комитетом Курского государственного медицинского университета (КГМУ) Минздрава России (г. Курск). До включения в исследование у всех больных было получено письменное информированное согласие. В исследовании использованы обезличенные данные.

Критерии включения: диагностика ИМ и НС согласно рекомендациям [17][18] и получение контрольных данных о состоянии больного в динамике.

На первом этапе анализировались медицинские карты стационарных больных, пролеченных в кардиологическом отделении регионального сосудистого центра Областной клинической больницы (г. Орёл) в период 2012-2016гг. Всего проанализировано 2740 медицинских карт стационарных больных (внутрибольничная летальность не учитывалась). Сведения о состоянии больных в динамике собирались в 2018-2023гг. Критериям включения в исследование соответствовало 1515 больных ИМ и НС. Выборка репрезентативна с вероятностью ошибки <5% (https://socioline.ru/rv.php). Таким образом, получена информация о 55,3% больных, пролеченных за указанный период. Повторные сведения о состоянии больных собирались посредством телефонного опроса больных или их родственников, по запросу из территориального отдела записи актов гражданского состояния (ЗАГС) (летальные случаи) и при повторном очном исследовании больного (повторная госпитализация или амбулаторный приём). Медиана наблюдения составила 62 [ 36; 71] мес. Критерий негативного исхода от ишемической болезни сердца — летальный исход. Таким образом, 1 группу составили 238 больных с летальным исходом от ишемической болезни сердца и 2 группу — 1277 больных с благоприятным исходом. Общее количество смертей за период наблюдения было 457, из них, 52,1% — кардиогенные. Смерть признавалась кардиогенной при достоверных клинико-инструментальных и секционных данных, в т.ч. при обстоятельствах, когда другие причины были маловероятны.

Все полученные данные были структурированы в виде файла Excel. Согласно рекомендациям [17][18] проводился сбор анамнестических данных, лабораторно-инструментальные исследования в рамках диагноза ИМ или НС. Из медицинских карт извлекались переменные пациента, доступные большинству лечебных учреждений (исключение — коронароангиография, КАГ). 80% данных использовали для обучения модели и 20% — тестовая выборка. Последняя использовалась для оценки качества модели на данных, которые не участвовали в обучении, что позволяло получить объективную оценку её производительности и избежать переобучения. В качестве основной библиотеки МИО для выделения признаков, а также последующего предсказания значений целевых переменных использовался ансамблевый алгоритм МО, разработанный компанией Яндекс — CatBoost (Categorical Boosting). Основные преимущества CatBoost: высокая точность моделей, поддержка категориальных признаков без необходимости их предварительного кодирования, устойчивость к переобучению, встроенные методы для обработки пропущенных значений. В качестве алгоритма выбора признаков по значимости использовали EFeaturesSelectionAlgorithm.RecursiveByShapValues из библиотеки Python SHAP (SHapley Additive exPlanations). SHAP оценивает вклад каждого признака в предсказание и используется для объяснения модели. Значение SHAP определяет значимость признака для вероятности негативного исхода. Подсчет метрик проводился библиотекой Scikit-learn (sklearn). Отрисовка графиков — с помощью библиотеки Matplotlib.

Функционирование алгоритма RecursiveByShapValues: обучение начальной модели на всех доступных признаках (для каждого признака рассчитываются SHAP значения, которые показывают его важность для предсказания модели), удаление наименее важных признаков (признаки сортируются по их SHAP значениям, на каждом шаге удаляется один или несколько наименее важных признаков (в зависимости от параметра steps)), повторение процесса (модель снова обучается на оставшихся признаках, SHAP значения пересчитываются для обновлённого набора признаков, процесс повторяется до тех пор, пока не останется заданное количество признаков (num_features_to_select)), финальная модель (после выбора наиболее значимых признаков обучается финальная модель на этом подмножестве признаков).

Настройки, использованные в коде:

— iterations=500: количество итераций обучения модели;

— random_seed=0: фиксированный случайный сид для воспроизводимости результатов;

— steps=1: количество шагов на каждом этапе удаления признаков;

— num_features_to_select=3: количество признаков, которые нужно оставить после выполнения алгоритма;

— shap_calc_type=EShapCalcType.Regular: тип расчета SHAP значений;

— train_final_model=True: обучение финальной модели на выбранных признаках;

— logging_level='Silent': отключение вывода логов;

— plot=True: построение графика.

Для статистической оценки полученных данных использовались методы параметрической и непараметрической статистики. Использовалась программа Statistica. Распределение признаков оценивалось с помощью критерия Колмогорова-Смирнова. Количественные данные представлены в виде медианы и интерквартильного размаха (Me [ Q25; Q75]). Значимость различия между величинами проводилась при помощи теста Манна-Уитни. Для оценки различия качественных параметров использовались критерий χ² и точный критерий Фишера. Исследование значимости изучаемых признаков при однофакторном логистическом регрессионном анализе проводилось с помощью критерия Вальда. Величина связи между признаками оценивалась с помощью коэффициента корреляции Спирмена. Для оценки качества бинарной классификации полученной модели по тестовой выборке больных производилось построение ROC-кривой. Статистически значимыми считались различия при р<0,05.

Результаты

Летальность за 62 мес. наблюдения составила 15,4%, что не превышает летальности по данным различных источников [10][19][20]. Половина всех летальных случаев пришлась на первые 2 года наблюдения [19][20]. Me [Q25; Q75] летальных случаев составила 25 [ 11,0; 48,0] мес. Второй пик летальных осложнений приходится на период 40-50 мес.

Основываясь на результатах предыдущих исследований [9], клинической значимости, информативности, доступности извлечения данных, были выбраны 122 количественных и качественных (категориальных) признаков, из которых выделены 47 полных признаков (таблица 1).

Таблица 1

Параметры исследуемых больных и результаты логистического регрессионного анализа изучаемых признаков

Показатель

1 группа, летальный исход (n=238)

2 группа, благоприятный исход (n=1277)

р

ОR [ 95% ДИ]

Коэфф. Вальда

Возраст, лет, Me [ Q25; Q75]

69 [ 60; 78]

62 [ 55; 70]

<0,001

1,05 [ 1,04; 1,06]

58,5***

Пол, n (%)

М — 138 (57,9%)

Ж — 100 (42,1%)

М — 799 (62,5%)

Ж — 478 (37,5%)

>0,05

1,19 [ 0,9; 1,6]

1,4

Проживание, n (%)

Город — 59 (24,8%)

Село — 179 (75,2%)

Город — 346 (27,1%)

Село — 931 (72,9%)

>0,05

1,1 [ 0,81; 1,5]

0,47

Данные анамнеза

Стенокардия, n (%)

167 (70,2%)

2 ФК — 46 (27,5%)

3 ФК — 121 (72,5%)

779 (61,0%)

2 ФК — 185 (23,7%)

3 ФК — 594 (76,3%)

<0,01

1,58 [ 1,16; 2,1]

8,7**

ПИКС, n (%)

108 (45,4%)

306 (23,9%)

<0,001

2,7 [ 2,0; 3,6]

47,8***

Начало симптомов, n (%)

До — 158 (66,4%)

После — 80 (33,6%)

До — 856 (67,0%)

После — 421 (33,0%)

>0,05

1,03 [ 0,73; 1,44]

0,03

Реваскуляризация, n (%)

12 (5,0%)

98 (7,7%)

>0,05

0,7 [ 0,39; 1,28]

1,3

Предшествующее лечение, n (%)

136 (57,1%)

715 (55,9%)

>0,05

1,01 [ 0,82; 1,44]

0,37

Традиционные ФР

СД 2 типа, n (%)

64 (26,8%)

253 (19,8%)

<0,05

1,5 [ 1,1; 2,1]

6,8*

ГБ, n (%)

214 (89,9%)

1119 (87,6%)

>0,05

1,6 [ 0,96; 2,5]

3,2

Курение, n (%)

61 (25,6%)

317 (24,8%)

>0,05

1,01 [ 0,75; 1,38]

0,01

ИМТ, кг/м², Me [ Q25; Q75]

27,7 [ 24,4; 31,3]

28,7 [ 25,8; 32,1]

<0,05

0,96 [ 0,93; 0,99]

6,5*

Коморбидный фон, n (%)

Нет заболеваний

69 (28,9%)

562 (44,0%)

<0,001

1,5 [ 1,3; 1,7]

40,5***

1 заболевание

70 (29,4%)

415 (32,5%)

>0,05

2 заболевания

53 (22,3%)

193 (15,1%)

<0,01

3 заболевания

31 (13,0%)

86 (6,7%)

<0,01

≥4 заболеваний

15 (6,4%)

21 (1,7%)

<0,001

Рост, см, Me [ Q25; Q75]

168 [ 160; 173]

170 [ 164; 175]

<0,05

0,98 [ 0,96; 0,99]

5,9*

Вес, кг, Me [ Q25; Q75]

80 [ 65; 90]

82 [ 73; 92]

<0,001

0,99 [ 0,97; 0,99]

11,8***

ППТ, м², Me [ Q25; Q75]

1,88 [ 1,75; 2,0]

1,93 [ 1,8; 2,0]

<0,001

0,24 [ 0,11; 0,49]

14,8***

САД, мм рт.ст., Me [ Q25; Q75]

140 [ 120; 160]

140 [ 130; 160]

>0,05

0,99 [ 0,99; 1,0]

2,7

Killip, класс, n (%)

1

176 (73,9%)

1181 (92,5%)

<0,001

2,3 [ 1,8; 2,9]

41,3***

2

47 (19,7%)

77 (6,1%)

<0,001

3

11 (4,6%)

12 (1%)

<0,01

4

4 (1,8%)

7 (0,6%)

>0,05

Данные исследований

ХСН, n (%)

1 — 133 (55,9%)

2 — 105 (44,1%)

1 — 1224 (95,8%)

2 — 53 (4,2%)

<0,001

5,0 [ 3,7; 6,8]

109,2***

Эритроциты, 10×10¹²/л, Me [ Q25; Q75]

4,3 [ 3,9; 4,7]

4,5 [ 4,1; 4,8]

<0,001

0,51 [ 0,39; 0,66]

26,5***

Гемоглобин, г/л, Me [ Q25; Q75]

141 [ 126; 152]

147 [ 136; 157]

<0,001

0,98 [ 0,97; 0,98]

37,2***

Тромбоциты, 10×10⁹/л, Me [ Q25; Q75]

212 [ 166; 252]

217 [ 181; 255]

>0,05

1,03 [ 0,98; 1,07]

1,8

Лейкоциты, 10×10⁹/л, Me [ Q25; Q75]

8,7 [ 7,1; 10,7]

8,1 [ 6,6; 10,3]

>0,05

1,04 [ 0,99; 1,08]

2,9

Глюкоза, ммоль/л, Me [ Q25; Q75]

6,9 [ 5,7; 8,9]

6,2 [ 5,3; 7,4]

<0,001

1,08 [ 1,04; 1,12]

16,5***

Креатинин, мкмоль/л, Me [ Q25; Q75]

97 [ 82; 116]

88 [ 74; 101]

<0,001

1,01 [ 1,01; 1,015]

39,8***

СКФ, мл/мин/1,73 м², Me [ Q25; Q75]

59,5 [ 46; 78]

73 [ 59; 88]

<0,001

0,97 [ 0,96; 0,97]

60***

ХБП, стадия, n (%)

1

26 (10,9%)

304 (23,8%)

<0,001

2,01 [ 1,7; 2,5]

65,8***

2

93 (39,1%)

650 (50,9%)

<0,001

3

97 (40,7%)

301 (23,6%)

<0,001

4 и >

22 (9,3%)

22 (1,7%)

<0,001

Общий ХС, ммоль/л, Me [ Q25; Q75]

4,8 [ 3,9; 6,1]

5,1 [ 4,1; 6,4]

<0,001

0,85 [ 0,77; 0,94]

10,2***

Триглицериды, ммоль/л, Me [ Q25; Q75]

1,33 [ 0,96; 1,67]

1,38 [ 1,1; 1,7]

>0,05

0,82 [ 0,67; 1,02]

3,4

ХС ЛНП, ммоль/л, Me [ Q25; Q75]

2,93 [ 2,15; 4,2]

3,48 [ 2,33; 4,4]

<0,01

0,83 [ 0,74; 0,94]

9,3**

ХС ЛВП, ммоль/л, Me [ Q25; Q75]

1,14 [ 0,97; 1,28]

1,16 [ 1,03; 1,31]

<0,05

0,47 [ 0,24; 0,91]

4,9*

Калий, ммоль/л, Me [ Q25; Q75]

4,5 [ 4,1; 5,0]

4,4 [ 4,0; 4,8]

>0,05

1,001 [ 0,97; 1,05]

0,24

ПТИ, %, Me [ Q25; Q75]

88 [ 73; 100]

90 [ 78; 100]

>0,05

0,99 [ 0,98; 1,0]

1,6

Повышенный уровень тропонинов (количественное значение >99 перцентиля), n (%)

112 (47,0%)

461 (36,1%)

<0,001

1,6 [ 1,2; 2,2]

12,0***

 

ЧСС, уд./мин, Me [ Q25; Q75]

79 [ 68; 95]

73 [ 64; 85]

<0,001

1,01 [ 1,01; 1,02]

17,5***

Девиация S-T, n (%)

нет

92 (38,6%)

327 (25,6%)

<0,001

1,4 [ 1,2; 1,6]

14,6***

депр

96 (40,3%)

446 (34,9%)

<0,05

элев

50 (21,1%)

504 (39,5%)

<0,001

Блокада НПГ, n (%)

24 (10,1%)

91 (7,2%)

<0,05

1,7 [ 1,07; 2,7]

5,0*

ФП, n (%)

64 (26,9%)

205 (16,0%)

<0,001

1,7 [ 1,2; 2,3]

10,3***

иКДОЛЖ, мл/м², Me [ Q25; Q75]

58,5 [ 42,8; 72,3]

50,5 [ 40,7; 62,4]

<0,001

1,02 [ 1,01; 1,03]

29,7***

иКСОЛЖ, мл/м², Me [ Q25; Q75]

29,3 [ 18,7; 39,3]

21,3 [ 16,1; 28,6]

<0,001

1,03 [ 1,02; 1,04]

42,7***

ФВ, %, Me [ Q25; Q75]

50 [ 43; 59]

58 [ 50; 64]

<0,001

0,95 [ 0,93; 0,96]

63,9***

ЭКГнп, n (%)

отр.

86 (56,9%)

692 (65,2%)

>0,05

1,42 [ 1,01; 2,01]

4,1

пол.

65 (43,1%)

369 (34,8%)

>0,05

   

СДЛА, мм рт.ст., Me [ Q25; Q75]

30 [ 21; 43]

27 [ 21; 34]

<0,001

1,03 [ 1,02; 1,05]

19,9***

КАГ, n (%)

74 (31,1%)

611 (47,8%)

<0,001

0,5 [ 0,37; 0,67]

21,0***

Индекс Gensini, Me [ Q25; Q75]

53,7 [ 32,0; 88,0]

32,0 [ 12,0; 55,0]

<0,001

1,01 [ 1,01; 1,02]

28,0***

ЧКВ, n (%)

37 (15,5%)

340 (26,6%)

<0,001

0,51 [ 0,35; 0,74]

12,8***

Нозология

Передний неQ, n (%)

49 (20,5%)

170 (13,3%)

<0,01

0,73 [ 0,62; 0,85]

15,4**

Передний Q, n (%)

38 (16,2%)

134 (10,5%)

<0,01

Нижний неQ, n (%)

21 (8,5%)

133 (10,4%)

>0,05

Нижний Q, n (%)

25 (10,2%)

145 (11,3%)

>0,05

НС, n (%)

105 (44,6%)

695 (54,5%)

<0,01

Примечание: значимость коэффициента Вальда * — р<0,05; ** — p<0,01; *** — p<0,001; ДИ — доверительный интервал, ГБ — гипертоническая болезнь, Ж — женщины, иКДОЛЖ — индекс конечно-диастолического объёма левого желудочка, иКСОЛЖ — индекс конечно-систолического объёма левого желудочка, индекс Gensini — индекс тяжести поражения коронарных артерий, ИМТ — индекс массы тела, КАГ — коронарография, ЛВП — липопротеины высокой плотности, ЛНП — липопротеины низкой плотности, М — мужчины, НПГ — ножка пучка Гиса, НС — нестабильная стенокардия, ПИКС — постинфарктный кардиосклероз, ППТ — площадь поверхности тела, ПТИ — протромбиновый индекс, САД — систолическое артериальное давление, СД — сахарный диабет, СДЛА — систолическое давление в лёгочной артерии, СКФ — скорость клубочковой фильтрации, ФВ — фракция выброса левого желудочка, ФК — функциональный класс, ФП — фибрилляция предсердий, ХБП — хроническая болезнь почек, ХС — холестерин, ХСН — хроническая сердечная недостаточность (ХСН 1 — предстадия СН, ХСН 2 — симптомная СН 1 и 2 стадии), ЧКВ — чрескожное коронарное вмешательство, ЧСС — частота сердечных сокращений, ЭКГнп — электрокардиографическая проба с физической нагрузкой (отр. — отрицательная, пол. — положительная), Killip — класс острой сердечной недостаточности, Me [ Q25; Q75] — медиана [ интерквартильный размах], OR — odds ratio (отношение шансов), S-T — отклонение сегмента S-T ЭКГ (депр — депрессия S-T; элев — элевация S-T электрокардиограммы).

Признаки, по которым были статистически значимые различия между группами, преобладали (66,7%). Среди них количественные признаки: возраст, фракция выброса (ФВ) левого желудочка (ЛЖ), скорость клубочковой фильтрации (СКФ) по CKD-EPI (мл/мин×1,73 м²), креатинин, индекс массы тела (ИМТ), рост, вес, площадь поверхности тела (ППТ), эритроциты, гемоглобин, глюкоза, общий холестерин (ХС), ХС липопротеинов низкой плотности, ХС липопротеинов высокой плотности, частота сердечных сокращений (ЧСС), индекс конечно-диастолического объема ЛЖ, индекс конечно-систолического объема ЛЖ, систолическое давление в легочной артерии (СДЛА). Значимые категориальные признаки: хроническая сердечная недостаточность (ХСН), Killip, постинфарктный кардиосклероз (ПИКС), коморбидность, хроническая болезнь почек (ХБП), стенокардия, сахарный диабет (СД) 2 типа, фибрилляция предсердий (ФП), положительные тропонины (уровень тропонина I >99 перцентиля), девиация S-T, КАГ, чрескожное коронарное вмешательство (ЧКВ), нозология. Доля КАГ и ЧКВ исследуемых больных была низкой (таблица 1) [10][15]. Консервативное лечение проводилось согласно принятым рекомендациям [17][18].

Нозологию можно рассматривать не только как отдельный предиктор прогноза, но и как совокупность признаков, играющих самостоятельную прогностическую роль. Кривые выживания показывают, что при передних инфарктах риск летальных осложнений существенно выше (рисунок 1).

Рис. 1 Кривые выживаемости исследуемых больных в зависимости от нозологии.

Примечание: сравнение кривых по логранговому критерию (Log rank), р<0,001. ИМ — инфаркт миокарда, НС — нестабильная стенокардия.

В результате использования алгоритма RecursiveByShapValues выделены 10 наиболее значимых признаков: возраст, ФВ ЛЖ (%), ФВ ЛЖ (категория), ХСН (стадия), СКФ (мл/мин/1,73 м²), ХБП (стадия), ППТ, систолическое артериальное давление (САД), коморбидность, нозология. Учитывая сильную прямо пропорциональную корреляционную связь ФВ ЛЖ (%) и ФВ ЛЖ (категория), а также СКФ (мл/мин/1,73 м²) и ХБП (стадия), r>0,7, зависимые признаки удалены, модель обучена повторно. В окончательном варианте модели участвуют 8 признаков (рисунок 2). На представленной диаграмме видно, что наиболее значимыми признаками в модели являются возраст и ФВ ЛЖ.

Рис. 2 Важность признаков, участвующих в окончательном варианте модели.

Примечание: важность масштабируется относительно наиболее значимого признака в каждой модели на основе метрик, специфичных для модели. Features — признаки: F — Возраст, годы; AK — ФВ ЛЖ (фракция выброса левого желудочка), %; Z — ППТ (площадь поверхности тела), м²; G — уровень креатинина, ммоль/л; O — CАД (систолическое артериальное давление), мм рт.ст.; J — ХСН (хроническая сердечная недостаточность), стадия; X — коморбидность, количество сопутствующих заболеваний; R — нозология, локализация ИМ (инфаркт миокарда) (передний, нижний) или НС (нестабильная стенокардия).

Параметром, оценивающим качество алгоритма МО по выделенным признакам, является ROC-AUC (площадь под ROC-кривой) (рисунок 3).

Рис. 3 ROC-кривая, оценивающая качество бинарного классификатора летального исхода исследуемой модели.

Примечание: True Positive Rate — чувствительность, False Positive Rate — 1-специфичность. AUC — числовой показатель площади под кривой ROC, Acc. — Accurasy (общая точность предсказания модели по всем классам), Prec. — Precision (точность модели в предсказании летальных исходов), Recall — чувствительность, F1 — мера, представляющая собой гармоническое среднее между точностью и полнотой; Confusion Matrix — матрица ошибок, True label — истинные значения исхода (Positive — летальный исход, Negative — стабильный исход), Predicted label — предсказанные значения. TP — истинно позитивные (летальные), FP — ложноположительные, TN — истинно негативные (стабильный исход), FN — ложноотрицательные.

Анализ модели по выделенным признакам выявил среднее качество классификатора по величине AUC, преимущественно за счёт хорошего выявления стабильных исходов. При этом, чувствительность и F1-мера оказались невысокими.

Обсуждение

При построении модели МО не всегда понятно, какие из признаков для неё важны, а какие являются избыточными. Удаление избыточных признаков позволяет лучше понять данные, а также сократить время настройки модели, улучшить её точность и облегчить интерпретируемость. Иногда эта задача и вовсе может быть самой значимой. Например, нахождение оптимального набора признаков позволяет расшифровать механизмы, лежащие в основе исследуемой проблемы. Выбор доступных и хорошо интерпретируемых признаков может быть даже более значимой задачей, чем уменьшение времени обработки данных или улучшения точности классификации.

Несмотря на существующие алгоритмы МО, позволяющие производить отбор и сортировку данных автоматически, сбор и последующий анализ данных из медицинских карт считается самым трудоемким и сложным процессом [2][5]. До настоящего времени нет чёткой скоординированности методов сбора и обмена данными, позволяющей избегать больших затрат на создание моделей [1].

Предварительная обработка данных включает в себя этапы выбора переменных и конструирования признаков. Традиционные стратегии построения моделей прогнозирования часто включают в себя этап создания из всех переменных более короткого списка факторов, которые являются потенциально прогностическими для исхода [6]. Отбор признаков основан на статистическом анализе, а также на основе априорных знаний и клинических суждений. При отборе признаков принято ориентироваться на предыдущие исследования и на существующие модели риска: GRACE, SPUM-ACS (The Special Program University Medicine Acute Coronary Syndromes and Inflammation) [9][10].

Использование фильтрационного метода в качестве одномерного скрининга значимости признаков позволило на первом этапе отобрать из 47 предикторов 32 значимых фактора риска (ФР) летального исхода исследуемых больных. Предварительная фильтрация признаков по значимости не считается оптимальным методом отбора данных [8], т.к. могут быть потеряны ценные взаимоотношения, которые можно найти при машинном поиске факторов. Например, САД оказался незначимым признаком при одномерном анализе, но был включен в модель при МО. Кроме того, модели на основе признаков, отобранных одномерным анализом, не всегда применимы на других данных (не релевантны) [8]. Поэтому истинный машинный подход заключается в использовании "неотобранных" данных [12]. При создании модели МО [6], выявлены наиболее значимые признаки, определяющие вероятность летального исхода: возраст, ФВ ЛЖ, ППТ, уровень креатинина, CАД, ХСН, коморбидность, нозология. Половина выбранных признаков входит в состав калькулятора GRACE [9], что подтверждает практическую ценность полученной модели.

Исследуемые больные с летальным исходом были старше. Возраст является самым весомым признаком в модели GRACE [9]. Вторым по значимости признаком в модели МО оказалась ФВ ЛЖ. Причина в том, что систолическая дисфункция ЛЖ — важный предиктор выживаемости больных после ИМ и НС [21]. Медиана ФВ в 1 группе составляла 50%, что соответствует нижней границе нормы [21]. ХСН с клиническими проявлениями (во всех случаях — застойные явления в малом круге кровообращения) в 5 раз увеличивает шанс летального исхода по данным одномерного анализа, однако в машинном отборе признаков, уступает величине ФВ ЛЖ. Корреляционная связь обоих признаков (r=-0,27, р<0,001) невысока, что можно объяснить нередким наличием диастолической дисфункции (повышенное давление наполнения ЛЖ). Среди антропометрических признаков наиболее значимыми оказались ППТ и вес. Слабое влияние ИМТ можно объяснить так называемым "парадоксом ожирения", который связан с более ранним развитием осложнений у больных с ожирением. Уровень креатинина является одним из значимых факторов в модели МО несмотря на то, что при одномерном анализе стадия ХБП превосходит по значимости величину СКФ и уровень креатинина. Влияние данных признаков на сердечно-сосудистую выживаемость объясняется существованием кардио-ренального континуума [22]. Коморбидный фон существенно увеличивает риск осложнений больных после перенесённого ИМ и НС [23]. Среди наиболее частых сопутствующих заболеваний в настоящем исследовании были: СД 2 типа, ХБП (стадии 3б и выше), цереброваскулярные заболевания, деменция, атеросклероз периферических артерий, онкопатология, хроническая обструктивная болезнь легких, анемия. Данные нозологии в совокупности с перенесенным ИМ и наличием ХСН 2 стадии совпадают с большинством заболеваний, включённых в валидированный критерий Чарлсон [23]. Нозологический признак обладает наименьшим влиянием при машинном отборе признаков. Прогноз больных с передними ИМ хуже, чем при нижних ИМ или НС, что связано с более выраженной ХСН и снижением ФВ ЛЖ [24]. Некоторые предикторы были значимы при одномерном анализе, но не вошли в модель при МО. Проведение ЧКВ со стентированием при ИМ и НС — известный фактор, улучшающий прогноз больных [16]. Наличие ПИКС создаёт условия для снижения систолической функции ЛЖ (корреляция ПИКС и ФВ ЛЖ r=0,27, р<0,001) и увеличения стадии ХСН, определяя негативный прогноз больных [10].

На этапе конструирования признаков исходные переменные могут быть преобразованы. В представленных данных при одномерном анализе выявлена интеграция нескольких переменных в одну более значимую (ХБП, ФВ, ППТ) [6]. Объединение факторов может быть объяснено эффектом взаимодействия признаков: когда два или более ФР вместе связаны с воздействием на результат, который больше, чем их индивидуальные эффекты [25]. Практическая польза такого объединения неясна. В модели МО признаки ФВ ЛЖ и ППТ оказались значимыми для прогнозирования летального исхода, а ХБП уступил составной компоненте — уровню креатинина. Считается нецелесообразной трансформация количественных признаков в категориальные, вследствие чего могут не учитываться и теряться некоторые важные взаимосвязи признаков внутри системы при МО и снижается прочность таких связей [8].

Менее значимые признаки: общий ХС, гемоглобин, эритроциты, СДЛА, КАГ, ЧСС, глюкоза, нозология, ППТ, девиация S-T, положительные тропонины, ФП, стенокардия в анамнезе, ИМТ, динамика ЧСС, СД, блокада ножек пучка Гиса, ХС липопротеинов высокой плотности, динамика САД, нагрузочная проба электрокардиограммы (ЭКГ) могут участвовать в моделях МО в качестве факторов, влияющих на качество модели. Снижение числа эритроцитов и уровня гемоглобина крови, связанное с анемией (7,7% от общего количества больных), — один из коморбидных факторов, ухудшающих прогноз больных после ИМ и НС. Концентрация глюкозы крови при госпитализации имеет большее значение, чем наличие верифицированного СД 2 типа на момент госпитализации с ИМ и НС. Снижение уровней общего ХС и ХС липопротеинов низкой плотности ассоциируется с худшим прогнозом после ИМ, что обусловлено отягощённым коморбидным статусом таких больных. Значения ЧСС, СДЛА и наличие ФП — факторы, зависимые от ХСН и ФВ ЛЖ. Положительные тропонины, девиация S-T связаны с нозологией.

Не выявлено значимого влияния на летальный риск у больных после перенесенного ИМ и НС таких традиционных ФР атеросклероза как пол, курение, гипертоническая болезнь. Причина может заключаться в недостаточной дискриминационной точности традиционной статистики [26] и "псевдопарадоксе" ФР — атипичное влияние признака на прогноз вследствие лучшего его выявления и лечения. Традиционные ФР являются доказанными предикторами атеросклеротического события. Тем не менее, может существовать различие в предикторах индексного события и последующих осложнений [27]. Риск летальных исходов у больных, переживших ИМ и НС, который максимально приходится на первые 2 года, больше характеризуют состояния, свидетельствующие о структурных и функциональных нарушениях работы сердца, почек и других органов (наиболее известен кардио-ренальный континуум) [22]. При оценке ближайшего и отдалённого прогноза после ИМ и НС происходит изменение патогенетической значимости отдельных ФР — смещение от ишемических признаков повреждения миокарда к сердечной недостаточности, дисфункции ЛЖ и коморбидному статусу. Прогнозирование с помощью МО не позволяет утверждать, что эффективное лечение модифицируемого ФР может снизить зависимость воздействия фактора и исхода. Коррекция артериального давления при наличии артериальной гипертонии не устраняет самого ФР, а уменьшает его негативное влияние. При отказе от курения устраняется сам ФР. Кроме того, каждый ФР, участвуя в едином сердечно-сосудистом континууме, реализует свои уникальные механизмы атерогенеза [28]. Известно, что влияние традиционных ФР, инициирующих первое событие, может быть ослаблено в дальнейшем другими, менее сильными признаками [29]. Кроме того, ФР атеросклероза могут влиять кумулятивно и неравномерно с течением времени [30]. Отсутствие статистически значимых линейных связей традиционных ФР с риском летального исхода после перенесенного острого коронарного синдрома не исключает возможность использования данных признаков в моделях МО.

Существуют многочисленные допущения и ограничения при отборе признаков для последующего МО и разработки прогностической модели риска. Это обусловлено не только ограниченностью статистических методов. Следует учитывать, что значимость факторов и характер их взаимодействия с течением времени может меняться [12]. При отборе признаков учитываются: объем данных, скорость их получения, разнообразие и достоверность данных. Часто используются большие объемы некачественных данных (пропуски данных, несогласованность, неточность, дублирование, выбросы и нерелевантные данные), что ограничивает возможности классификаторов, т.к. они могут найти закономерности, которые не пригодятся в реальной клинической практике [5].

Ограничение исследования. Ретроспективный характер сбора данных, при котором возможны потери и недостоверности их получения. Недостаточно социальных детерминант здоровья [5]. Коморбидность оценивалась по сумме заболеваний, без учёта значимости каждого из них.

Заключение

Из медицинской карты больных ИМ и НС отобрано 47 доступных клинических признаков. Наиболее существенными для прогноза летального исхода по результатам машинного отбора оказались 8: возраст, ФВ ЛЖ, ППТ, уровень креатинина, CАД, ХСН, коморбидность, нозология.

Отношения и деятельность: все авторы заявляют об отсутствии потенциального конфликта интересов, требующего раскрытия в данной статье.

Список литературы

1. Гельцер Б.И., Циванюк М.М., Шахгельдян К.И., Рублев В.Ю. Методы машинного обучения как инструмент диагностических и прогностических исследований при ишемической болезни сердца. Российский кардиологический журнал. 2020;25(12):3999. https://doi.org/10.15829/1560-4071-2020-3999

2. Гусев А.В., Гаврилов Д.В., Корсаков И.Н., Серова Л.М., Новицкий Р.Э., Кузнецова Т.Ю. Перспективы использования методов машинного обучения для предсказания сердечно-сосудистых заболевания. Искусственный интеллект в здравоохранении. 2019, 3: 41-47. УДК 002.53.

3. Moshawrab M., Adda M., Bouzouane A., Ibrahim H., Raad A. Reviewing Federated Machine Learning and Its Use in Diseases Prediction. Sensors 2023; 23, 2112. doi.org/10.3390/s23042112

4. Fox K.A.A, Dabbous O.H., Goldberg R.J. Prediction of risk of death and myocardial infarction in the six months after presentation with acute coronary syndrome:prospective multinational observational study (GRACE). Br. Med. J. 2006;333: 1091-1094. doi: 10.1136/bmj.38985.646481.55

5. Бернс С.А., Шмидт Е.А., Клименкова А.В., Туманова С.А., Барбараш О.Л. Возможности шкалы GRACE в долгосрочной оценке риска у больных с острым коронарным синдромом без подъема сегмента ST. Доктор.Ру. 2019; 2(157): 12–18. doi: 10.31550/1727-2378-2019-157-2-12-18

6. Седых Д. Ю., Велиева Р. М., Кашталап В. В., Барбараш О. Л. Сравнительная оценка прогностической значимости шкал рискометрии у пациентов с инфарктом миокарда. Комплексные проблемы сердечно-сосудистых заболеваний. 2019;8(4):46-55. doi.org/10.17802/2306-1278-2019-8-4-46-55

7. Ben Ali W., Pesaranghader A., Avram R., Overtchouk P., Perrin N., Laffite S., et al. Implementing Machine Learning in Interventional Cardiology: The Benefits Are Worth the Trouble. Front. Cardiovasc. Med. 2021; 8:711401. doi: 10.3389/fcvm.2021.711401.

8. Бойцов С.А., Алекян Б.Г., Шахнович Р.М., Ганюков В.И. Что меняется в лечении острого коронарного синдрома в Российской Федерации? Рациональная Фармакотерапия в Кардиологии. 2022;18(6):703-709. doi.org/10.20996/1819-6446-2022-12-14.

9. Huang C., Murugiah K., Mahajan S., Li S-X., Dhruva S.S., Haimovich J.S., et al. Enhancing the prediction of acute kidney injury risk after percutaneous coronary intervention using machine learning techniques: A retrospective cohort study. PLoS Med. 2018; 15(11): e1002703. doi.org/10.1371/journal.pmed.1002703

10. Mirza B., Wang W., Wang J., Choi H., Chung N.C., Ping P. Machine Learning and Integrative Analysis of Biomedical Big Data. Genes. 2019; 10(2):87. doi:10.3390/genes10020087

11. Johnson K.W., Soto J.T., Glicksberg B.S., Shameer K., Miotto R., Mohsin Ali M., et al. Artificial Intelligence in Cardiology. Journal of the American College of Сardiology. 2018; 71(23):2668-2679. doi.org/10.1016/j.jacc.2018.03.521

12. Haq A.U., Li J.P., Memon M.H., Nazir S., Sun R.. A Hybrid Intelligent System Framework for the Prediction of Heart Disease Using Machine Learning Algorithms. Mobile Information Systems. 2018; ID 3860146:21 doi.org/10.1155/2018/3860146

13. Al-Zaiti S.S., Alghwiri A.A., Hu X., Clermont G., Peace A., Macfarlane P. A clinician’s guide to understanding and critically appraising machine learning studies: a checklist for Ruling Out Bias Using Standard Tools in Machine Learning (ROBUST-ML). European Heart Journal - Digital Health. 2022;3:125–140. doi.org/10.1093/ehjdh/ztac016

14. Марцевич С.Ю., Гинзбург М.Л., Кутишенко Н.П., Деев А.Д., Фокина А.В., Даниэльс Е.В. Люберецкое исследование по изучению смертности больных, перенесших острый инфаркт миокарда. Первые результаты исследования «ЛИС». Клиницист. 2011;5(1):24-27. doi.org/10.17650/1818-8338-2011-1-24-27.

15. Эрлих А.Д. от имени участников регистра РЕКОРД-3. Связь степени поражения коронарного русла и особенностей стентирования с краткосрочными и отдаленными исходами у пациентов с острым коронарным синдромом (данные регистра РЕКОРД-3). Кардиология. 2018;58(5):5–12. doi: 10.18087/cardio.2018.5.10109

16. Бойцов С.А., Шахнович Р.М., Эрлих А.Д., Терещенко С.Н., Кукава Н.Г., Рытова Ю.К., Регистр острого инфаркта миокарда. РЕГИОН–ИМ – Российский рЕГИстр Острого иНфаркта миокарда. Кардиология. 2021;61(6):41-51. doi.org/10.18087/cardio.2021.6.n1595.

17. Collet J-Ph., Thiele H., Barbato E., Barthélémy O., Bauersachs J., Bhatt D.L. Рекомендации ESC по ведению пациентов с острым коронарным синдромом без стойкого подъема сегмента ST 2020. Российский кардиологический журнал. 2021;26(3):4418 doi:10.15829/1560-4071-2021-4418

18. Староверов И.И., Шахнович Р.М., Гиляров М.Ю., Комаров А.Л., Константинова Е.В., Панченко Е.П., Явелов И.С. Евразийские клинические рекомендации по диагностике и лечению острого коронарного синдрома с подъёмом сегмента ST (ОКСПST). Евразийский кардиологический журнал. 2020 (1):4-77. Doi: 10.24411/2076-4766-2020-10001.

19. Эрлих А.Д. 12-месячные исходы у пациентов с острым коронарным синдромом, включённых в российский регистр «РЕКОРД-3». Российский кардиологический журнал. 2018;(3):23-30. doi.org/10.15829/1560-4071-2018-3-23-30

20. Fordyce С.В., Giugliano R.P., Cannon C.P., Roe M.T., Sharma A., Page C., et al. Cardiovascular Events and Long-Term Risk of Sudden Death Among Stabilized Patients After Acute Coronary Syndrome: Insights From IMPROVE-IT. J Am Heart Assoc. 2022;11:e022733. doi: 10.1161/JAHA.121.022733.

21. Худайнетова Л.А., Ефимова Л.П., Мирзалиева М.Н. Взаимосвязь индекса коморбидности Charlson и количества повторных госпитализаций у коморбидных пациентов кардиологического профиля. Вестник СурГУ. Медицина. 2022;2 (52):14-21. doi.org/10.34822/2304-9448-2022-2-14-21.

22. Седых Д. Ю., Велиева Р. М., Кашталап В. В., Барбараш О. Л. Сравнительная оценка прогностической значимости шкал рискометрии у пациентов с инфарктом миокарда. Комплексные проблемы сердечно-сосудистых заболеваний. 2019;8(4):46-55. doi.org/10.17802/2306-1278-2019-8-4-46-55

23. Merloa J., Mulinaria S., Wemrella M., Subramaniand S.V., Hedblad B. The tyranny of the averages and the indiscriminate use of risk factors in public health: The case of coronary heart disease. SSM - Population Health. 2017; 3:684–698 doi.org/10.1016/j.ssmph.2017.08.005

24. Терещенко С.Н., Галявич А.С., Ускач Т.М., Агеев Ф.Т., Арутюнов Г.П., Беграмбекова Ю.Л. Хроническая сердечная недостаточность. Клинические рекомендации 2020. Российский кардиологический журнал. 2020; 25(11): 311-374. doi:10.15829/1560-4071-2020-4083

25. Резник Е.В., Никитин И.Г. Кардиоренальный синдром у больных с сердечной недостаточностью как этап кардиоренального континуума (часть 1): определение, классификация, патогенез, диагностика, эпидемиология. Архивъ внутренней медицины. 2019; 9(1):5-22. doi: 10.20514/2226-6704-2019-9-1-5-22.

26. Hermansson J., Bøggild H., Hallqvist J., Karlsson B., Knutsson A., Nilsson T. et al. Interaction between Shift Work and Established Coronary Risk Factors. Int J Occup Environ Med. 2019; 10(2): 57-65. doi: 10.15171/ijoem.2019.1466

27. Mok Y., Sang Y., Ballew S.H., Rebholz C.M., Rosamond W.D., Heiss G. et al. American Heart Association’s Life’s Simple 7 at Middle Age and Prognosis After Myocardial Infarction in Later Life. J Am Heart Assoc. 2018;7:e007658. doi: 10.1161/JAHA.117.007658.

28. Kanenawa К., Yamaji K., Kohsaka S., Ishii H., Amano T., Ando K. et al. Age-Stratified Prevalence and Relative Prognostic Significance of Traditional Atherosclerotic Risk Factors: A Report from the Nationwide Registry of Percutaneous Coronary Interventions in Japan. J Am Heart Assoc. 2023;12:e030881. doi: 10.1161/JAHA.123.030881

29. Patel R.S., Schmidt A.F., TraganteV., McCubrey R.O., Holmes M.V., Howe L.J. et al. Association of Chromosome 9p21 With Subsequent Coronary Heart Disease Events A GENIUS-CHD Study of Individual Participant. Circulation: Genomic and Precision Medicine. 2019; 12(4):е002471. doi.org/10.1161/CIRCGEN.119.002471.

30. Simonetto С., Heier M., Peters A., Kaiser J.C., Rospleszcz S. From Atherosclerosis to Myocardial Infarction: A Process-Oriented Model Investigating the Role of Risk Factors Am J Epidemiol. 2022;191(10):1766–1775 doi.org/10.1093/aje/kwac038


Об авторах

Д. А. Швец
БУЗ Орловской области "Орловская областная клиническая больница"
Россия

Швец Денис Анатольевич — к.м.н., врач кардиолог отделения кардиологического № 2, врач ультразвуковой диагностики

Орёл



С. В. Поветкин
ФГБОУ ВО «Курский государственный медицинский университет» Министерства здравоохранения Российской Федерации
Россия

Поветкин Сергей Владимирович — д.м.н., профессор, зав. кафедрой клинической фармакологии

Курск



Дополнительные файлы

Что известно о предмете исследования?

  • Возможны региональные различия в значимости предикторов, определяющих риск летальных исходов у больных после инфаркта миокарда и нестабильной стенокардии.
  • Аналогичные базы данных: международный регистр GRACE (Global Registry of Acute Coronary Events) (версия 2.0) и общероссийский регистр РЕКОРД-3.

Что добавляют результаты исследования?

  • Длительность наблюдения >5 лет.
  • Негативный прогноз определяется предикторами, отличными от традиционных факторов рис­ка атеросклероза.
  • Значение имеют факторы, характеризующие сер­дечную недостаточность и коморбидный фон.

Рецензия

Для цитирования:


Швец Д.А., Поветкин С.В. Выбор признаков для моделирования риска летальных исходов больных после перенесённого инфаркта миокарда или нестабильной стенокардии. Кардиоваскулярная терапия и профилактика. 2025;24(3):4102. https://doi.org/10.15829/1728-8800-2025-4102. EDN: OSZDEY

For citation:


Shvets D.A., Povetkin S.V. Selection of features for modeling the risk of fatal outcomes in patients after myocardial infarction or unstable angina. Cardiovascular Therapy and Prevention. 2025;24(3):4102. (In Russ.) https://doi.org/10.15829/1728-8800-2025-4102. EDN: OSZDEY

Просмотров: 94


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1728-8800 (Print)
ISSN 2619-0125 (Online)