文章

论文阅读

论文阅读

人工智能增强心电图在心血管诊断和风险预测中的表型选择性

作者:
Philip M. Croon, MD¹,²,³;Lovedeep S. Dhingra, MBBS, MHS¹,²;Dhruva Biswas, MD, PhD¹,²;Evangelos K Oikonomou, MD, DPhil¹,²;Rohan Khera, MD, MS¹,²,⁴,⁵,⁶

单位:

  1. 耶鲁医学院内科系心血管医学科,康涅狄格州纽黑文
  2. 耶鲁医学院心血管数据科学(CarDS)实验室,康涅狄格州纽黑文
  3. 阿姆斯特丹大学医学中心心脏病学系,阿姆斯特丹心血管科学部,荷兰阿姆斯特丹
  4. 耶鲁公共卫生学院生物统计系健康信息学科,康涅狄格州纽黑文
  5. 耶鲁医学院生物医学信息学与数据科学科,康涅狄格州纽黑文
  6. 耶鲁-纽黑文医院结果研究与评估中心,康涅狄格州纽黑文

摘要

背景 

人工智能(AI)增强心电图(ECG)模型通常用于检测特定的解剖和功能心脏异常。了解其表型关联的选择性对于指导临床应用至关重要。本研究旨在评估AI-ECG模型是否作为特定疾病分类器或更广泛的心血管风险标志物发挥作用。

方法

我们纳入了来自电子健康记录(EHR)和前瞻性队列研究的四个不同人群。我们部署了六种基于图像的AI-ECG模型,包括五种已验证的模型,分别用于检测左心室收缩功能障碍(LVSD)、主动脉瓣狭窄(AS)、二尖瓣反流(MR)、左心室肥厚(LVH)以及一种用于结构性心脏病(SHD)的复合模型,还有一种用于生物学性别预测的阴性对照AI-ECG模型。此外,我们开发了六种实验模型,用于识别非心血管疾病。通过表型全关联研究(PheWAS)框架,将EHR和队列中的诊断代码转化为可解释的表型。我们使用逻辑回归评估AI-ECG概率与横断面表型的关联,并使用Cox回归分析新发心血管疾病的关联。计算皮尔逊相关系数以比较表型特征。

结果 

研究纳入了233,689名个体(平均年龄59±18岁,女性130,084人[56%])。五种AI-ECG模型相比其他表型组更可能与心血管表型相关(比值比范围为2.16至4.41,p<10⁻⁶),而性别模型未显示类似模式。所有AI-ECG模型均与其目标表型显著相关,但也显示出与其他心血管表型相似或更强的关联。不同条件下训练的AI-ECG模型表型关联相似,而非心血管条件模型则无此现象。模型间表型关联模式的相关性较高(0.67至0.96)。该模式在所有模型、外部数据集及横断面和前瞻性分析中均一致。

结论 

尽管AI-ECG模型旨在检测特定心血管疾病,但它们对多种心血管疾病的现状检测和未来发展的预测具有相似倾向。这挑战了其作为二元诊断工具的角色,支持其作为更广泛心血管生物标志物的应用。

关键词: 人工智能;心电图;心血管疾病;风险预测;机器学习

引言

人工智能(AI)扩展了心电图(ECG)的用途,使其能够检测到专家此前认为无法识别的细微疾病特征。目前,已有多种AI-ECG模型被广泛验证用于检测各种特定的功能性和结构性心血管疾病,包括左心室收缩功能障碍(LVSD)、瓣膜性心脏病(VHD)和左心室肥厚(LVH)。此外,AI-ECG已被证明是一种能够预测新发心血管疾病(CVD)的数字生物标志物。

这些进展促使FDA批准了用于检测LVSD和肥厚型心肌病的AI-ECG算法,标志着其从研究向临床应用的转变。

尽管AI-ECG模型被开发和评估为特定疾病的诊断工具,但对其表型关联选择性的评估对于指导临床应用至关重要。许多CVD具有共同的病理生理机制和危险因素,可能导致相似的传导和节律改变。可见的ECG异常(如ST段改变或QT间期延长)也常与多种心脏疾病相关,反映了重叠的病理过程。因此,AI-ECG模型可能无法区分不同的疾病实体,而是识别代表更广泛心血管病理的ECG特征。

在本研究中,我们评估了基于图像的AI-ECG模型在四个不同队列中对横断面和新发心血管疾病的表型关联选择性,包括一家大型三级医院、四家社区医院、一个门诊医疗网络和英国生物银行(UK Biobank)。我们还包括了一个用于生物学性别的分类模型和七个实验模型,作为阴性对照。

方法

耶鲁机构审查委员会批准了研究方案,并豁免了知情同意要求,因为本研究涉及对现有数据的二次分析。由于患者隐私和机构规定,本研究的数据无法公开共享。支持本研究的分析代码可在以下网址获取:https://github.com/CarDS-Yale/selectivity_AI_ECG

AI-ECG模型评估

我们利用了一系列先前开发并在多国队列中广泛验证的AI-ECG模型,用于检测不同的心血管异常。这些模型包括:

  1. LVSD(左心室射血分数<40%)
  2. 主动脉瓣狭窄(AS)
  3. 二尖瓣反流(MR)
  4. 严重LVH(舒张末期室间隔直径>15 mm)
  5. 复合SHD(包括LVSD、瓣膜性心脏病和LVH)

所有模型均基于EfficientNet-B3架构的卷积神经网络(CNN),输入为标准12导联ECG的300×300像素图像表示。

实验AI-ECG模型的开发与评估

为了评估非心血管生物标签训练的AI-ECG模型是否与心血管疾病模型不同,我们开发了一个用于从ECG定义生物学性别的AI-ECG模型。此外,我们开发了多个实验模型作为阴性对照,包括病毒性呼吸道感染、交通事故、头痛、小腿骨折、狗咬伤和皮肤癣菌病。

数据来源

主要数据集来自美国康涅狄格州的耶鲁纽黑文医院(YNHH)。外部验证数据包括:

  1. 耶鲁纽黑文卫生系统的四家社区医院
  2. 覆盖多个门诊诊所的东北医疗集团
  3. 英国生物银行心血管影像子研究参与者

研究人群

在YNHH队列中,排除了参与模型开发的个体。对于其他队列,选择至少有一次ECG记录的个体,并随机选择一次ECG进行分析。

模型与临床表型关联分析

我们进行了表型全关联研究(PheWAS),探索AI-ECG模型预测与多种临床表型的横断面关联。仅考虑ECG记录当天或之前的诊断代码,并排除发生次数少于20次的表型。

AI-ECG与新发心血管疾病的关联

为评估AI-ECG模型预测新发心血管疾病的预后价值,我们进行了时间-事件分析,使用Cox比例风险模型。

统计分析

连续变量以均值±标准差表示,分类变量以计数和百分比表示。横断面关联采用年龄和性别调整的逻辑回归分析,报告比值比(OR)和95%置信区间(CI)。新发疾病分析采用Cox比例风险模型,报告风险比(HR)和95% CI。

结果

研究人群

共纳入235,685名个体,其中116,540名来自YNHH队列(平均年龄55.5±19.1岁,女性占56.6%)。社区医院队列包括63,790名个体(平均年龄61.1±19.5岁),门诊诊所队列包括11,005名个体(平均年龄61.4±15.0岁),英国生物银行队列包括42,354名参与者(平均年龄64.1±7.8岁)。

AI-ECG模型与心血管表型的横断面关联

在YNHH队列的989种临床表型中,CVD特异性AI-ECG模型更可能与心血管表型相关(OR范围为2.16至4.41,p<10⁻⁶)。相比之下,生物学性别模型未显示心血管表型关联模式。

AI-ECG的非目标表型关联

LVSD模型不仅与其目标表型(心力衰竭)强相关(OR 2.91),还与原发性心肌病(OR 3.58)和慢性缺血性心脏病(OR 2.93)强相关。其他AI-ECG模型也显示出类似的广泛心血管表型关联。

疾病特异性AI-ECG模型的表型关联模式

在YNHH队列中,LVSD、MR、LVH、AS和SHD模型的表型关联模式高度相关(皮尔逊相关系数0.67至0.96)。相比之下,性别模型与心血管疾病模型的相关性较低(r=0.45–0.48)。

AI-ECG模型的目标与非目标心血管预测

在YNHH队列中,LVSD模型与新发心力衰竭的风险增加2倍(HR 2.09),同时也与主动脉瓣疾病(HR 1.35)、二尖瓣疾病(HR 1.67)、LVH(HR 1.69)和复合SHD(HR 1.67)的风险增加相关。

非心血管疾病结局的实验模型

在所有队列中,非心血管结局训练的实验AI-ECG模型未显示显著的临床表型关联,符合其作为阴性对照的角色。

讨论

本研究通过对超过23万名来自美国和英国四个不同临床和社区队列的个体进行分析,表明一系列旨在识别特定结构性心脏疾病的AI-ECG模型对多种心血管疾病具有非特异性关联。这些模型使用标准12导联ECG图像作为输入,在多国队列中经过验证,并在信号模型中表现出一致性。

尽管这些模型始终显示出更强的心血管表型关联,但这些关联在目标和非目标条件下均显著,表明它们更适合作为一般心血管筛查工具,而非特定疾病的诊断工具。

这一模式在患有常见且常共存的心血管疾病的队列中、限制多重共病的敏感性分析中,以及初始无结构性心脏病的健康人群中均一致观察到。此外,这些工具代表了无明显心脏功能障碍个体未来心血管疾病的数字生物标志物。最强的关联是这些AI-ECG工具与新发心力衰竭的风险,而非目标疾病的未来发展风险。

值得注意的是,旨在识别结构性心脏病复合体的集成模型比针对单一疾病训练的模型表现出更广泛和更强的关联。

结论

尽管AI-ECG模型旨在检测特定心血管疾病,但它们对多种心血管疾病的现状检测和未来发展的预测具有相似倾向。这表明AI-ECG的临床效用更适合作为更广泛的心血管生物标志物,而非特定的二元诊断工具。

补充材料
请参阅PubMed Central的网页版补充材料。

资金来源
Khera博士获得美国国立卫生研究院(R01AG089981、R01HL167858和K23HL153775)和多丽丝·杜克慈善基金会(2022060)的支持。Oikonomou博士获得美国国立卫生研究院国家心肺血液研究所(F32HL170592)的支持。

非标准缩写和首字母缩略词
AI:人工智能
AI-ECG:人工智能增强心电图
AS:主动脉瓣狭窄
AUROC:受试者工作特征曲线下面积
CNN:卷积神经网络
CVD:心血管疾病
EHR:电子健康记录
ECG:心电图
FDA:食品药品监督管理局
ICD:国际疾病分类
LVEF:左心室射血分数
LVH:左心室肥厚
LVSD:左心室收缩功能障碍
MR:二尖瓣反流
HCM:肥厚型心肌病
HOCM:肥厚型梗阻性心肌病
NHS:国家卫生服务
PheWAS:表型全关联研究
SHD:结构性心脏病
UKB:英国生物银行
YNHH:耶鲁纽黑文医院
YNHHS:耶鲁纽黑文卫生系统

使用心电图图像进行结构性心脏病筛查的集成深度学习算法:PRESENT SHD

摘要

背景

早期识别结构性心脏病(SHDs)可以改变疾病的进程,但其诊断需要心脏成像,而这种技术的可及性有限。

目的

本研究旨在利用12导联心电图(ECG)图像,通过集成深度学习方法,实现对多种SHDs的自动化检测和预测。

方法

我们开发了一系列卷积神经网络模型,用于从心电图图像中检测一系列单独的SHDs,这些SHDs由耶鲁纽黑文医院(YNHH)在心电图30天内进行的经胸超声心动图定义。SHDs被定义为左心室射血分数<40%,中度至重度左侧瓣膜疾病(主动脉/二尖瓣狭窄或反流),或重度左心室肥厚(舒张末期室间隔直径>1.5厘米且舒张功能障碍)。我们开发了一个集成XGBoost模型,即PRESENT-SHD(使用集成机器学习策略进行SHD检测的实用筛查),作为所有SHDs的综合筛查工具。我们在4家美国医院和前瞻性、基于人群的ELSA-Brasil(巴西成人健康纵向研究)队列中验证了PRESENT-SHD,这些队列同时进行了标准化的心电图和经胸超声心动图检查。我们还使用PRESENT-SHD对临床队列和基于人群的英国生物银行中的新发SHD或心力衰竭(HF)进行风险分层。

结果

这些模型使用了来自93,693名YNHH患者的261,228份心电图进行开发,并在YNHH的11,023名个体(19%患有SHD)、外部医院的44,591名个体(20%-27%患有SHD)和ELSA-Brasil的3,014名个体(3%患有SHD)的单份心电图上进行了评估。在保留的测试集中,PRESENT-SHD展示了0.886的受试者工作特征曲线下面积(AUROC)(95% CI: 0.877-894),90%的敏感性和66%的特异性。在基于医院的地点,PRESENT-SHD的AUROC范围为0.854至0.900,敏感性和特异性分别为93%至96%和51%至56%。该模型在ELSA-Brasil中也表现良好(AUROC 0.853[95% CI: 0.811-0.897],88%敏感性,62%特异性)。PRESENT-SHD在不同人口亚组、新型心电图格式以及来自监护仪和打印输出的心电图智能手机照片中均表现出一致的性能。阳性PRESENT-SHD筛查预示着新发SHD/心力衰竭的风险高出2至4倍,独立于人口统计学、合并症和临床地点及英国生物银行中的死亡竞争风险,具有高预测区分度。

结论

我们开发并验证了PRESENT-SHD,这是一种利用12导联心电图图像识别多种SHD的人工智能心电图工具,代表了一种稳健、可扩展且易于获取的自动化SHD筛查和风险分层方式。

引言

结构性心脏病(SHDs)代表了一系列普遍的心脏疾病,具有较长的无症状病程,并且心力衰竭(HF)和过早死亡的风险显著增加。这些疾病的检测传统上需要高级心脏成像技术,包括超声心动图和心脏磁共振成像,这些技术资源密集,因此不适合大规模疾病筛查。因此,这些疾病通常在出现临床症状后才被诊断,导致不良的健康结局。此外,目前尚无策略来识别有发展为SHDs风险的个体,尽管存在可以改变患者病程的循证干预措施。因此,迫切需要开发一种自动化、易于获取且可扩展的SHD筛查和风险分层策略。

此前,人工智能在心电图(AI-ECG)中的应用已显示出检测SHDs特征的潜力。AI-ECG模型在使用心电图检测特定心脏疾病时面临的一个关键挑战是,由于个别疾病的低患病率导致的低精度。为了克服这一限制,提出了用于检测多种SHDs复合体的集成模型。然而,这些模型使用原始心电图电压数据作为输入,这些数据在临床护理点对医生不可用,并且通常需要修改技术基础设施以适应特定供应商的数据格式。这阻碍了AI-ECG方法在广泛心血管筛查中的广泛应用,因为这些数据集成并不常见。此外,大多数AI-ECG方法侧重于横断面检测,而没有量化无SHD个体中新发疾病的风险,这将确定一个需要持续监测的群体。因此,迫切需要一种基于AI-ECG的策略,利用普遍、互操作且易于获取的心电图图像数据,同时实现多种SHDs的横断面检测和纵向预测。

在本研究中,我们报告了一种集成深度学习方法的开发和跨国验证,该方法使用12导联心电图的图像,无论其格式如何,都能准确检测和预测多种SHDs。

方法

耶鲁大学机构审查委员会批准了研究方案,并豁免了知情同意的要求,因为该研究涉及对现有数据的二次分析。该模型的在线版本已公开用于研究用途。

数据来源

为了模型开发,我们纳入了2015年至2023年耶鲁纽黑文医院(YNHH)的数据。YNHH是一家拥有1,500张床位的大型三级医疗中心,为康涅狄格州各地的多样化患者群体提供护理。为了对外部验证我们的SHD检测方法,我们纳入了多个临床和地理多样化的队列:1)耶鲁纽黑文卫生系统的4家不同的社区医院:布里奇波特医院、格林威治医院、劳伦斯+纪念医院和韦斯特利医院;2)巴西的一个基于社区的队列,该队列在基线研究访问时同时进行了标准化的心电图和经胸超声心动图(TTE)评估:ELSA-Brasil研究。

为了评估无基线疾病人群的SHD纵向预测,除了耶鲁纽黑文卫生系统医院的连续监测数据外,我们还纳入了英国生物银行(UKB)的数据。UKB是最大的基于人群的队列,具有标准化的心电图评估和来自英国国家卫生服务综合电子健康记录(EHR)的临床遭遇数据。

所有数据源的概述包含在补充方法中。

SHD检测的研究人群

在YNHH,我们确定了所有在经胸超声心动图(TTE)前后30天内接受12导联心电图的成年人(年龄≥18岁),排除了既往接受过心脏手术的患者,以复制这些模型在筛查环境中的预期用途(中心插图,补充图1)。在内部验证和内部保留测试集以及所有外部验证地点,从每个个体在TTE前后30天内进行的一次或多次心电图中随机选择一份心电图。在ELSA-Brasil中,所有在基线研究访问时同时接受了心电图和TTE的参与者都被纳入。

SHD结局

SHD的研究结局被定义为任何左心室收缩功能障碍(LVSD)、中度或重度左侧瓣膜疾病或重度左心室肥厚(sLVH)。所有情况均根据美国超声心动图学会指南,由经过认证的心脏病专家对TTE进行解释来确定。超声心动图变量以表格形式提供,无需手动确认。左心室射血分数(LVEF)主要使用双平面法作为连续变量进行测量。当双平面法无法测量LVEF时,使用三维或视觉估计方法进行测量。LVSD被定义为LVEF<40%。左侧瓣膜疾病包括主动脉瓣狭窄(AS)、主动脉瓣反流(AR)、二尖瓣反流(MR)或二尖瓣狭窄,根据既定的超声心动图指南分为轻度至中度、中度、中度至重度或重度。我们通过舒张末期室间隔直径>15毫米,结合中度至重度(II级和III级)左心室舒张功能障碍来定义sLVH。

信号处理和图像生成

我们采用了一种策略,开发能够从不同布局的心电图图像中检测SHD的模型。这是通过自定义波形绘图策略实现的,其中心电信号被处理并绘制成图像,格式从2,880种格式中随机选择,涵盖导联布局、迹线和背景颜色、导联标签字体、大小和位置以及网格和信号线宽度的变化(补充图2)。我们还包括了非传统的心电图导联放置变化,将胸部导联放在绘制的心电图左侧,肢体导联放在右侧。绘制的信号使用先前描述的标准预处理策略进行处理(并包含在补充方法中)。对于评估,心电图图像从信号波形数据中以标准临床布局绘制,电压校准为10 mm/mV,肢体和胸前导联排列成4列,每列2.5秒,分别代表导联I、II和III;aVR、aVL和aVF;V1、V2和V3;以及V4、V5和V6(补充图3)。导联I信号的10秒记录作为节律条包含在内。我们进一步在4种模型训练期间未遇到的新图像格式上评估了模型(补充方法,补充图4)。所有图像都转换为灰度并使用Python Image Library下采样到300×300像素。用于模型训练和评估的心电图图像示例见补充附录2。

个体SHD的模型开发

我们训练了6个独立的卷积神经网络(CNN)模型来检测SHD的各个组成部分(中心插图)。我们将YNHH的个体随机分为训练集、验证集和测试集(85:5:10),没有任何患者跨越这些集合(补充图1)。我们在训练集中保留了每个人的多份心电图,以确保训练数据的充分性。然而,在内部验证、保留测试和外部验证集中评估模型时,每个个体只随机选择一份心电图。值得注意的是,外部验证集中的任何患者都不在模型开发人群中。

我们使用了基于EfficientNet-B3架构的CNN模型,该架构有384层和超过1000万个可训练参数。为了实现标签高效模型开发,我们使用了一个预训练模型的权重初始化CNN,该模型通过自监督对比学习框架识别心电图中的个体特异性模式,而不依赖于其解释(图1)。自监督预训练任务中的心电图不代表SHD模型开发中的任何个体。

训练集中的每份心电图都使用前文描述的随机分配绘图格式之一进行绘制。我们在整个训练过程中使用了Adam优化器、梯度裁剪和128的小批量大小,依次解冻最后几层(学习率0.001)和所有层(学习率10^-5),当验证损失在连续5个epoch内没有改善时停止训练。鉴于病例和对照的不平衡,使用了基于有效样本数的自定义类别平衡损失函数(加权二元交叉熵)。

SHD各个组成部分的CNN具有相同的模型主干,但在训练人群上有所不同。6个模型中的5个,特别是用于检测LVSD、任何中度至重度左侧瓣膜性心脏病的存在,以及中度至重度AR、AS或MR的模型,使用了训练集中的所有心电图,涵盖了有和没有每种疾病的患者。然而,鉴于sLVH的低患病率(<1%),我们为模型开发匹配了年龄和性别的病例和对照受试者。每个代表sLVH个体的心电图病例,与10个来自相同性别且年龄相差5年以内的无sLVH对照心电图相匹配。这些个体模型被组合成一个集成模型,以检测任何SHD的存在。作为敏感性分析,我们使用相同的训练策略和模型架构直接开发了一个检测SHD存在的分类器CNN模型。

对于每个SHD组成部分,我们还在相同的标签和训练人群中训练了相应的基于信号的模型(补充方法)。

集成学习策略

在CNN开发之后,6个SHD CNN模型的输出概率以及个体的年龄和性别被用作极端梯度提升(XGBoost)模型PRESENT-SHD(使用集成机器学习策略进行SHD检测的实用筛查)的输入特征(图1)。XGBoost模型仅使用与CNN模型相同的训练集数据进行训练。在作为特征包含之前,年龄和CNN模型输出概率被标准化为均值为0,方差为1,以提高学习稳定性并确保在不同数据集中特征贡献的一致性。标准化算法基于训练集中这些变量的分布得出,并应用于所有其他数据集的推理,包括内部验证、测试和外部验证集。

模型在心电图截图和智能手机照片上的评估

为了评估模型在现实世界中不同图像获取策略下的性能,我们从保留的测试集中随机选择了100份心电图。从电子健康记录(EHR)中,我们识别了这些心电图的PDF文件并保存了截图,以反映临床护理中使用的精确图像。然后,我们拍摄了显示这些心电图的笔记本电脑屏幕的照片。我们还将它们打印在A4纸上,并使用3部不同智能手机的默认相机设置拍摄了照片(补充图5,补充方法)。

新发SHD的预测

为了评估模型在不同数据源中分层新发疾病风险的用途,我们确定了一个在基线时没有SHD或HF证据的人群。在YNHH,我们确定了电子健康记录(EHR)中所有个体的首次记录就诊,并设置了1年的空白期以定义现有疾病(补充图6)。在1年空白期后有心电图的204,530名患者中,我们排除了6,909名现有SHD患者、1,197名既往接受过瓣膜修复或置换手术的患者和13,632名现有HF患者(补充表1)。模型训练集中的患者(n = 55,245)也被排除在此分析之外。我们在基于医院的外部验证站点使用了类似的策略来识别有新发疾病风险的患者——1年的空白期以识别现有疾病,并排除那些有现有SHD/HF或既往瓣膜手术的患者。在各组中,新发SHD/HF被定义为TTE上检测到的任何SHD的首次发生、任何瓣膜置换或修复手术,或因HF住院。数据在死亡或失访时被删失。

此外,我们确定了在英国生物银行(UKB)中有心电图的参与者。我们使用国家电子健康记录链接来识别那些在基线心电图之前没有因HF住院和没有接受过瓣膜手术的参与者。我们跟踪这些个体,直到他们首次遇到SHD或HF诊断代码,或左侧瓣膜置换或修复手术(补充表1)。

统计分析

我们报告连续变量为中位数(Q1-Q3),分类变量为计数和百分比。SHD检测的模型性能报告为受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC),这些指标的95%置信区间通过1,000次迭代的自助法计算。其他性能指标包括敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和F1分数,95%置信区间使用比例的标准误公式计算。最后,我们计算了模型在模拟筛查场景中的PPV,这些场景具有不同的复合SHD患病率,使用模型在内部验证集中敏感性高于90%的概率阈值对应的敏感性和特异性。

在基线时无SHD的人群中,PRESENT-SHD对新发SHD/HF的预测作用在年龄和性别调整的Cox比例风险模型中进行了评估。首次SHD/HF事件的时间是因变量,基于PRESENT-SHD的筛查状态——假设为“假阳性”或“真阴性”状态——是关键的自变量。

此外,为了在评估新发SHD时考虑死亡的竞争风险,我们使用了年龄和性别调整的多结局Fine-Gray子分布风险模型。模型对SHD预测的区分度使用Harrell的C统计量进行评估。统计分析为双侧,显著性水平设定为0.05。

分析使用Python 3.11.2和R版本4.2.0执行。我们的研究遵循EQUATOR网络的TRIPOD + AI(多变量预测模型透明报告用于个体预后或诊断+人工智能)清单(补充表2)。

结果

研究人群

训练集中有来自93,693名独特患者的261,228份心电图,验证和内部保留测试集分别有来自5,512名和11,023名患者的每人一份心电图(补充图1)。开发人群(模型训练和验证集)的中位年龄为67.8岁(Q1-Q3:56.1-78.3岁),49,947人(50.3%)为女性,13,383人(13.8%)为非西班牙裔黑人,7,754人(8.1%)为西班牙裔(补充表3)。在开发人群中,60,096份(22.5%)心电图与SHD的TTE配对,包括25,552份(9.5%)LVSD,42,989份(16.1%)中度或重度左侧瓣膜疾病,和1,004份(0.4%)sLVH。

在外部医院站点,布里奇波特医院的18,222名患者、格林威治医院的4,720名患者、劳伦斯+纪念医院的17,867名患者和韦斯特利医院的3,782名患者被纳入(补充图1),在这些站点共44,591份心电图,每人随机选择一份用于模型评估。在各医院站点,心电图时的中位年龄范围为66至74岁,队列中女性占48.3%至50.5%,黑人占1.5%至19.4%,西班牙裔占1.4%至15.9%。这些队列中SHD的分布见补充表4。

在ELSA-Brasil的15,105名参与者中,3,014名在基线访问时接受了心电图和TTE的参与者被纳入。队列的中位年龄为62.0岁(Q1-Q3:57.0-67.0岁),1,596人(53.0%)为女性,1,661人(55.1%)为白人,455人(15.1%)为黑人,753人(25.0%)为帕尔多人(或混血)个体。共有88人(2.9%)患有SHD,其中37人(1.2%)患有LVSD,55人(1.8%)患有中度或重度左侧瓣膜疾病,6人(0.2%)患有sLVH(补充表4)。

SHD的检测

集成XGBoost模型PRESENT-SHD在保留测试集中对复合SHD结局的检测展示了0.886的AUROC(95% CI:0.877-0.894)和0.807的AUPRC(95% CI:0.791-0.823)(表1)。在内部验证集中敏感性高于90%的概率阈值下,该模型在YNHH的保留测试集中对SHD检测的敏感性为89.8%(95% CI:89.0%-90.5%),特异性为66.2%(95% CI:65.0%-67.4%),PPV为57.4%(95% CI:56.1%-58.6%),NPV为92.8%(95% CI:92.1%-93.4%)(表2,补充图7)。PRESENT-SHD在年龄、性别、种族和民族亚组中表现一致(表1),并且在训练中未遇到的新心电图格式中泛化良好(补充表5)。此外,该模型在TTE在心电图之前、同一天或之后进行的子集中表现一致(补充表6),并对严重SHD表型(LVSD、严重左侧瓣膜疾病或sLVH)具有高区分度(补充图8)。值得注意的是,PRESENT-SHD的性能高于直接检测SHD的CNN模型和其他XGBoost集成策略(补充表7和8)。

PRESENT-SHD在检测SHD方面的性能与相应的基于信号的模型相似(补充表9)。在心电图截图和监护仪及打印输出的智能手机照片中,该模型与绘制图像高度一致(皮尔逊相关系数,0.959-0.977)(补充图9),并且在所有图像类型中表现一致(AUROCs:绘制图像,0.939[95% CI:0.887-0.976];心电图截图,0.934[95% CI:0.885-0.973];计算机显示器的智能手机照片,0.932[95% CI:0.878-0.970];打印输出的智能手机照片,0.924[95% CI:0.866-0.970])(补充表10)。

此外,PRESENT-SHD在布里奇波特(AUROC:0.854[95% CI:0.847-0.862])、格林威治(AUROC:0.900[95% CI:0.888-0.913])、劳伦斯+纪念(AUROC:0.871[95% CI:0.864-0.878])和韦斯特利(AUROC:0.887[95% CI:0.874-0.902])医院的外部验证队列中泛化良好,敏感性和特异性分别在88%至96%和51%至66%之间。PRESENT-SHD在基于人群的ELSA-Brasil中也泛化良好,AUROC为0.853(95% CI:0.811-0.897),敏感性和特异性分别为87.5%和61.9%(表2,补充表11)。在验证站点中,模型在人口亚组中的表现一致(补充表12至16)。代表不同筛查场景的SHD假设患病率范围内的F1分数、PPVs和NPVs见补充表17。

个体疾病的检测

LVSD、中度或重度瓣膜疾病和sLVH的模型AUROC分别为0.914(95% CI:0.904-0.924)、0.805(95% CI:0.793-0.817)和0.903(95% CI:0.850-0.946)(图2)。个体瓣膜性心脏病的CNN模型性能各不相同,中度或重度AR的AUROC为0.722(95% CI:0.697-0.746),AS为0.804(95% CI:0.784-0.824),MR为0.792(95% CI:0.776-0.807)。CNN模型的AUPRC随个体疾病患病率而变化(补充表18至23)。个体疾病CNN在外部验证队列(补充图10,补充表18至23)和现实世界心电图图像模态(补充表24)中的表现一致。

SHD和心血管风险的预测

在YNHH的127,547名有风险的个体中,5,346人(4.2%)在中位4.0年(Q1-Q3:1.7-6.4年)的随访中发生了新发SHD/HF。在基于医院的外部验证站点中,63,748名基线无SHD/HF的个体中有4,593人(7.2%)在中位3.1年(Q1-Q3:1.3-5.0年)的随访中发生了新发SHD/HF(补充表25)。在UKB中,41,800名个体中有413人(1.0%)在3.0年(Q1-Q3:2.1-4.5年)的随访中发生了SHD/HF。

阳性PRESENT-SHD筛查预示着YNHH中新发SHD/HF的风险高出4倍(年龄和性别调整的HR[aHR]:4.28[95% CI:3.95-4.64],Harrell的C统计量,0.823[95% CI:0.817-0.828]),并且模型概率每增加10%,新发SHD/HF的风险就增加36%(aHR:1.36[95% CI:1.35-1.38])。在所有外部验证医院站点中观察到了类似的模式(补充表26和27)。在调整基线合并症和死亡竞争风险后,这种关联仍然一致(补充表26)。

在UKB中,阳性与阴性PRESENT-SHD筛查相比,发生SHD/HF的风险高出两倍(aHR:2.39[95% CI:1.87-3.04],Harrell的C统计量,0.754[95% CI:0.728-0.780])。在所有站点中,较高的模型概率与逐渐增加的新发SHD/HF风险相关(图3,补充表28)。

讨论

我们开发并验证了PRESENT-SHD,这是一种集成深度学习模型,使用心电图图像作为输入来检测一系列SHDs。PRESENT-SHD在5家不同的美国医院和巴西的一项基于人群的队列研究中对SHDs的检测表现出色。模型在人口亚组中的表现一致,并且与相应的基于信号的模型相似。此外,PRESENT-SHD在新型心电图格式、电子健康记录中的心电图截图以及从笔记本电脑显示器和打印输出中拍摄的心电图智能手机照片上测试时保持了高性能。此外,在基线时无SHD的个体中,PRESENT-SHD识别出那些在美国以卫生系统为中心的队列和英国基于社区的队列中发生新发SHD/HF的风险高达4倍的个体。该模型对新发疾病的风险校准良好,因此较高的PRESENT-SHD概率与逐渐增加的SHD/HF风险相关。因此,基于图像的AI-ECG方法是一种可扩展且易于获取的SHD筛查策略,并能识别出高风险个体。

先前的研究报道了使用深度学习在12导联心电图上检测个体结构性心血管疾病,包括LVSD、肥厚型心肌病、心脏淀粉样变性、AS等。尽管这些模型为基于心电图的SHD检测提供了坚实的基础,但由于这些个体疾病的低患病率和所提出模型的低PPV,其在广泛筛查中的潜在实施受到限制。同时检测多种SHDs增加了复合疾病患病率并提高了模型精度。通过专注于检测任何需要TTE确认的临床相关SHDs,PRESENT-SHD通过限制假发现实现了高效筛查。此外,使用心电图图像作为输入,并采用允许不同格式的灵活策略,支持了该方法在资源设置中的可扩展性。

我们的工作具有额外的特征,建立在文献报道的研究基础上。专注于在多样化人群中开发PRESENT-SHD使其在验证站点的人口亚组中表现一致。此外,除了准确检测横断面疾病外,PRESENT-SHD还预测了基线无SHD个体中新发疾病的风险,代表了一种新的心血管风险分层策略。该模型对SHD风险的预测校准良好,表明那些具有高PRESENT-SHD评分的个体可以从监测、评估和管理风险因素中受益。

PRESENT-SHD的应用对心血管筛查具有重要意义。由于早期疾病检测和干预可以改变SHD患者的轨迹和结局,利用心电图图像和照片的AI-ECG方法可以通过在获得心电图的临床环境中自动部署实现机会性筛查。专注于同时检测广泛SHDs的复合模型减少了假阳性筛查和下游测试的负担,这是为个体心血管疾病开发的AI-ECG模型的主要关注点。这种高PPV可以在实施过程中选择敏感阈值,以识别应转诊进行进一步成像的个体。鉴于SHD的各个组成部分共享一个共同的诊断测试,即TTE,使用PRESENT-SHD进行筛查可以帮助分流TTE测试的使用。那些AI-ECG筛查阳性的个体可以优先进行心脏成像,这在访问可能受限的情况下尤其有帮助。

研究局限性:首先,开发人群代表了一组有心电图和TTE临床指征的选定患者。该模型在社区和转诊医院中看到的广泛临床亚人群中的一致验证表明,该模型学习了SHD的可泛化特征。这进一步得到了ELSA-Brasil研究中PRESENT-SHD一致验证的支持,该研究中的个体在入组时同时进行了标准化的心电图和超声心动图,没有任何指征混淆。尽管如此,在筛查人群中广泛使用之前,仍需进行持续的前瞻性验证研究。其次,虽然PRESENT-SHD在电子健康记录中的心电图截图和智能手机拍摄的心电图照片上表现一致,但在广泛临床采用之前,必须前瞻性地评估PRESENT-SHD在现实世界环境中的可行性和性能。

第三,虽然我们使用年龄和性别匹配的对照受试者开发了用于sLVH检测的CNN模型,但我们没有评估另外使用临床风险因素进行病例对照匹配的替代方法。

第四,尽管模型的开发集中在绘制的图像上,但在图像绘制之前的信号预处理代表了心电图机在生成或打印心电图图像之前使用的标准步骤。因此,PRESENT-SHD在现实世界应用中不需要对心电图图像进行任何处理,正如模型的公开可用应用程序所展示的那样。

第五,模型在65岁及以上个体中的性能较低,可能会限制其作为排除心脏成像需求的独立工具的可靠性。调整模型阈值或开发年龄特定模型可以评估以提高性能。第六,我们没有评估PRESENT-SHD在临床环境中的成本效益。然而,该模型在横断面疾病检测中具有高PPV,并识别出有高风险发展SHD/HF的个体,代表了有利于部署的特征。最后,在模型的预测评估中,尽管地理覆盖范围广泛,但一些结局事件可能发生在YNHH和社区医院之外,可能导致纵向结局的捕获不完整。尽管如此,模型风险分层在UKB中是一致的,UKB中的心电图是标准化的,并且使用国家电子健康记录链接确定了结局。

结论

我们开发并验证了一种使用12导联心电图图像检测和预测一系列SHDs的新方法,代表了一种可扩展且易于获取的SHD筛查和风险分层工具。

资金支持和作者披露

Brant博士部分由CNPq(307329/2022-4)支持。Ribeiro博士部分由国家科学技术发展委员会-CNPq(资助465518/2014-1,310790/2021-2,409604/2022-4 e 445011/2023-8)支持。Krumholz博士是JACC的主编;与医疗保险和医疗补助服务中心签订合同以支持质量测量项目;与耶鲁大学签订研究合同,合作方包括强生、Kenvue和辉瑞;在过去三年中获得了Element Science和Identifeye的期权,并因担任顾问角色从F-Prime获得了付款;并且是Hugo Health、Refactor Health和Ensight-AI的联合创始人并持有股权。Oikonomou博士由美国国立卫生研究院国家心肺血液研究所(奖项F32HL170592)支持;曾担任Caristo Diagnostics Ltd和Ensight-AI Inc的顾问;并从牛津大学授权的技术中获得了版税,与提交的工作无关。Oikonomou博士和Khera博士是Evidence2Health的联合创始人,这是一个旨在改善循证心血管护理的精准健康平台。Khera博士由美国国立卫生研究院(奖项R01AG089981,R01HL167858和K23HL153775)和多丽丝·杜克慈善基金会(奖项2022060)支持;是JAMA的副编辑;通过耶鲁大学获得了Blavatnik创新基金的支持;通过耶鲁大学获得了百时美施贵宝、BridgeBio和诺和诺德的研究支持;并且是美国待决专利申请WO2023230345A1,US20220336048A1,63/484,426,63/508,315,63/580,137,63/606,203,63/619,241和63/562,335的共同发明人。Khera博士和Sangha先生是美国临时专利申请No. 63/346,610“使用深度学习从打印的心电图图像中进行格式无关的隐匿性心血管疾病检测的文章和方法”的共同发明人;并且是Ensight-AI的联合创始人。资助者在研究的设计和实施、数据的收集、管理、分析和解释、论文的撰写、审阅或批准以及决定提交论文发表方面没有任何作用。所有其他作者均报告他们与本文内容无关的关系需要披露。

通讯地址:Rohan Khera博士,耶鲁医学院,195 Church Street,6楼,纽黑文,康涅狄格州06510,美国。电子邮件:mailto:rohan.khera@yale.edu

参考文献

  1. Steinberg DH, Staubach S, Franke J, Sievert H. 定义成年患者的结构性心脏病:当前范围、固有挑战和未来方向。Eur Heart J Suppl. 2010;12:E2 – E9.
  2. Picano E. 心脏成像的经济和生物学成本。Cardiovasc Ultrasound. 2005;3:13.
  3. Vitola JV, Shaw LJ, Allam AH, et al. 评估发展中国家对核心脏病学和其他高级心脏成像模式的需求。J Nucl Cardiol. 2009;16:956 – 961.
  4. Alkhouli M, Alqahtani F, Holmes DR, Berzingi C. 美国结构性心脏病干预措施的利用和结果中的种族差异。J Am Heart Assoc. 2019;8(15):e012125.
  5. Samad Z, Sivak JA, Phelan M, Schulte PJ, Patel U, Velazquez EJ. 慢性肾病相关的左侧瓣膜性心脏病的患病率和结局。J Am Heart Assoc. 2017;6(10):e006044.
  6. Fleury M-A, Clavel M-A. 瓣膜性心脏病的病理生理学、诊断、治疗和结局中的性别和种族差异。Can J Cardiol. 2021;37:980 – 991.
  7. Baumgartner H, Iung B, Otto CM. 无症状瓣膜性心脏病患者干预时机。Eur Heart J. 2020;41:4349 – 4356.
  8. Wang TJ, Evans JC, Benjamin EJ, Levy D, LeRoy EC, Vasan RS. 社区中无症状左心室收缩功能障碍的自然史。Circulation. 2003;108:977 – 982.
  9. Galasko GI, Barnes SC, Collinson P, Lahiri A, Senior R. 筛查左心室

利用人工智能从心电图中检测结构性心脏病

Timothy J. Poterucha1,15, Linyuan Jing2,15, Ramon Pimentel Ricart1, Michael Adjei-Mosi3, Joshua Finer2, Dustin Hartzel2, Christopher Kelsey2, Aaron Long1,4, Daniel Rocha2, Jeffrey A. Ruhl2, David vanMaanen2, Marc A. Probst5, Brock Daniels6, Shalmali D. Joshi4, Olivier Tastet7, Denis Corbin7, Robert Avram7, Joshua P. Barrios8, Geoffrey H. Tison8, I-Min Chiu9,10, David Ouyang9, Alexander Volodarskiy11, Michelle Castillo1, Francisco A. Roedan Oliver1, Paloma P. Malta1, Siqin Ye1, Gregg F. Rosner1, Jose M. Dizon1, Shah R. Ali1, Qi Liu1, Corey K. Bradley1, Prashant Vaishnava1, Carol A. Waksmonski1, Ersilia M. DeFilippis1, Vratika Agarwal1, Mark Lebehn1, Polydoros N. Kampaktsis1, Sofia Shames1, Ashley N. Beecy12, Deepa Kumaraiah1,2, Shunichi Homma1, Allan Schwartz1, Rebecca T. Hahn1, Martin Leon1,13, Andrew J. Einstein1,14, Mathew S. Maurer1, Heidi S. Hartman1, John Weston Hughes1, Christopher M. Haggerty2,3,16& Pierre Elias1,4,16 ✉

早期发现结构性心脏病(SHD)对于改善预后至关重要,但广泛的筛查仍受限于超声心动图等影像学工具的成本和可及性。最近,将机器学习应用于心律记录以识别疾病的研究已显示出前景,尽管之前的工作因在狭窄人群中开发或仅针对特定心脏状况而受到限制。在此,我们介绍了一种深度学习模型EchoNext,该模型在大型且多样化医疗系统中的超过100万份心律和影像记录上进行训练,以检测多种形式的结构性心脏病。该模型在内部和外部验证中均表现出高诊断准确性,在受控评估中优于心脏病专家,并在不同医疗环境及种族/族裔群体中表现出一致的性能。这些模型在一项针对无既往心脏影像检查患者的临床试验中进行了前瞻性评估,成功识别出先前未被诊断的心脏病。这些发现支持了人工智能在扩大心脏病筛查规模方面的潜力。为了促进进一步的发展和透明度,我们已公开发布模型权重和一个大型、带注释的数据集,将心律数据与基于影像的诊断联系起来。

结构性心脏病(SHD)是一场日益严重的流行病,但诊断不足的情况仍然普遍存在。SHD包括影响心脏瓣膜、壁或腔室的病理,如瓣膜性心脏病(VHD)、右心和左心衰竭、肺动脉高压和左心室肥厚。SHD在美国每年造成的直接和间接成本超过1000亿美元,随着疾病负担的增加,这一数字将继续上升。这些疾病的危害是深远的,据估计,心力衰竭和VHD分别影响着6400万和7500万人,患病率正在增加。尽管其临床重要性不言而喻,SHD的诊断不足问题依然存在。

一项针对2500名65岁及以上人群的研究发现,4.9%的人此前已被诊断为具有临床意义(中度或重度)的VHD,另有6.4%的人患有未被诊断的VHD,使总体患病率增加了一倍以上。在疾病早期阶段发现SHD患者已被证明可以降低死亡率、减少成本并提高生活质量,但实现诊断仍然充满挑战。至少对于两种形式的SHD——心力衰竭和VHD而言,其症状可能归因于许多潜在的诊断,并且通常只在疾病晚期才出现。所有形式的SHD都可以通过超声心动图确诊,但成本、所需的专业知识和适当的患者选择限制了其总体使用。因此,迫切需要更好地对患者进行风险分层,并确定谁应该接受超声心动图检查,以提高SHD的诊断率和早期治疗率。

深度学习(人工智能的一个子集)的应用已被证明在从12导联心电图(ECG)中检测特定心脏病方面是有益的。这包括主动脉瓣狭窄、低左心室射血分数(LVEF)和低左心室肥厚等病症,以及多种瓣膜疾病的综合表现。还开发了更通用的AI-ECG模型,可以准确检测低左心室收缩功能障碍、低左心室肥厚和中度或以上VHD的综合表现。由于模型精度(阳性预测值)受结果患病率的影响,使用综合预测目标可以利用增加的结果患病率(如果独立,则为各组成部分患病率之和)来实现比针对任何单个组成部分训练的模型更高的精度。此外,当疾病标签组成部分共享一个临床诊断途径(例如,需要通过超声心动图确认)时,这些精度增益可以在不增加额外操作成本的情况下实现,因为高风险评分在所有情况下都提示应进行超声心动图转诊。

这些模型面临的挑战包括确保模型在广泛的疾病状态、临床背景和患者人口统计学特征下的性能。最重要的是,这些模型及其底层训练数据通常是专有的,限制了比较和对泛化性的更广泛评估。

本研究旨在利用来自大型且多样化医院系统的数据,实现以下目标:(1) 开发一种能够准确检测多种SHD的深度学习ECG模型;(2) 评估模型在不同机构、患者人口统计学特征和临床背景下的泛化性能;(3) 在一项试点临床试验中测试这些技术,以确定它们是否可以用于实际检测未被诊断的心脏病;(4) 公开发布一个SHD检测模型和一个大型去标识化的ECG数据集,该数据集带有经过整理的超声心动图衍生标签,以促进进一步研究。

模型开发与验证

我们整理了一个数据集,包含2008年12月至2022年间在八家纽约长老会(NYP)附属医院之一收集的1,245,273对ECG-超声心动图配对数据,涉及230,318名独特患者(年龄18岁或以上)。该数据集被指定为NYP多中心队列。数据按患者级别分为训练集(149,819名独特患者,796,816对ECG-超声心动图配对)、验证集(35,780名独特患者,35,780对ECG-超声心动图配对)和测试集(44,719名独特患者,44,719对ECG-超声心动图配对),患者特征见表1。值得注意的是,验证和测试中仅保留了每位患者的最新ECG-超声心动图配对。

SHD的存在是一个复合指标,包括根据适当超声心动图指南在临床超声心动图报告中确定的以下情况:LVEF小于或等于45%;最大左心室壁厚度大于或等于1.3厘米;中度或重度右心室功能障碍;肺动脉高压(肺动脉收缩压(PASP)大于或等于45毫米汞柱或三尖瓣反流射流速度大于或等于3.2米/秒);中度或重度主动脉瓣狭窄、主动脉瓣反流、二尖瓣反流、三尖瓣反流或肺动脉瓣反流,或中度或大量心包积液。这些截断值的选择是为了大致符合临床上公认的中度或以上病理的定义,并识别出符合近期研究确定的指南导向药物治疗条件的左心室收缩功能障碍患者。

要将一份ECG标记为“阳性”疾病,必须在SHD超声心动图检查前1年内进行。对于没有SHD(至少通过一次“阴性”超声心动图确认)的患者,所有在最近一次超声心动图之前的ECG都被标记为阴性并纳入研究。使用这些定义,测试集中SHD的患病率为36%。

这些数据用于训练EchoNext,这是一种卷积神经网络模型(补充表1),使用ECG轨迹和ECG上包含的七个标准值(年龄;性别(从ECG人口统计数据中获取);心房率;心室率;肺动脉瓣反流间期;Q波、R波和S波(QRS)持续时间;以及校正的Q波至T波间期)来预测SHD的存在。

EchoNext在NYP多中心测试集上的表现很高且校准良好(图2和图3及补充图1),接收者操作特征曲线下面积(AUROC)为85.2%(95%置信区间(CI)84.5–85.9%),精确-召回曲线下面积(AUPRC)为78.5%(95% CI 77.2–79.6%),诊断比值比为12.8(95% CI 11.6–14.1)(图2)。除了SHD复合标签外,EchoNext还被训练为一个多任务分类器,以预测复合标签中的每个单独疾病标签,从而更好地评估标签共线性并确保高度相关标签之间的一致预测(补充图4)。例如,肺动脉瓣反流与三尖瓣反流最大速度和右心室功能障碍高度相关。模型在这些单独组成部分中的表现各不相同,右心室(AUROC 91%)和低左心室收缩功能障碍(90%)表现最佳(图2和补充表2)。表现最差的是左心室壁厚度(AUROC 77%)、主动脉瓣反流(78%)、肺动脉瓣反流(79%)和心包积液(80%)。我们进一步评估了模型在NYP各医院、临床背景以及患者年龄和种族/族裔方面的表现(表2)。在各医院(AUROC范围82–87%)(图3)和临床背景(AUROC范围79–84%)中,模型表现出稳定、可泛化的性能。同样,按种族/族裔或性别划分,模型性能没有临床上的相关差异;在年轻人群中,模型区分度略有提高,这与其他分析中报告的模式一致。

最后,使用更严格的表型定义(“重度”SHD;补充信息,补充图2和补充表3)或使用NYP多中心队列的不同分区(补充信息,补充图3和补充表4–8)训练的模型版本在性能上显示出微小差异。当模型在八家NYP医院中的四家医院的数据上训练并在另外四家未见过的医院的独立数据上测试时,性能变化很小。在切换用于训练和测试的医院时也是如此。此外,学术医院和社区医院的性能都很稳定。当测试不同的组成部分疾病标签组合(左心室或右心室功能障碍、所有瓣膜疾病、左心疾病和右心疾病)时,性能仍然稳健。

外部验证

该模型的性能在三个外部队列中进行了测试,分别来自西达赛奈医疗中心(n=10,177名患者)、蒙特利尔心脏研究所(n=10,862名患者)和加州大学旧金山医疗中心(n=6,106名患者)。与NYP队列中的SHD患病率(36%)相比,外部站点的SHD患病率更高(分别为54%、52%和46%)。与NYP多中心队列中的单个医院相比,EchoNext在这些外部队列中的AUROC下降了5-7%(78-80%)(图3)。在固定敏感性为70%的情况下,外部队列显示出相当的阳性预测值,但特异性下降了10%(补充表10)。这些差异可能归因于与模型训练人群相比,疾病患病率和其他患者人口统计学特征的巨大差异(补充表9)。

在非AI检测技术(如肌钙蛋白检测和乳腺X线摄影筛查)的验证中,也观察到了类似或更大的性能差异。

静默部署验证

我们进一步试图在一个时间上不同的NYP患者队列中评估模型性能,该队列更能反映该模型在现实世界中的预期使用人群。在2023年1月1日至2023年9月16日期间,从84,875名无既往超声心动图检查的独特患者中获取的124,027份ECG上,EchoNext自动在后台运行,并将模型预测存储以供将来使用。这些患者均未包含在原始训练、验证或测试数据集中。随后对患者进行监测,看他们是否在未来某个时间点在八家医院中的任何一家接受了超声心动图检查。在这个队列中,18%(15,094名患者)在ECG后作为常规临床护理的一部分接受了他们的第一次超声心动图检查;其中,38%(5,744名患者)被新诊断为SHD。在有超声心动图随访的这个子集中,模型再次表现出良好的泛化能力,其性能(AUROC 83%,AUPRC 81%)与回顾性开发队列相似。使用预定义的模型评分截断值0.6,27%(4,135名患者)的ECG和/或超声心动图人群被预测为高风险,对应的精度(阳性预测值)和召回率(敏感性)分别为74%和53%。

在69,781名有ECG但无后续超声心动图检查的患者中,3,444名(5%)在上述相同截断值下被预测为SHD高风险。鉴于该人群中疾病的实际情况未知,表3提供了模型精度作为不同患病率和所选敏感性函数的估计值。

例如,如果该人群中SHD的患病率为10%,则在50%敏感性下的预计阳性预测值为46.5%。因此,在3,444名高风险患者中,估计有1,998名患者可以通过模型指导的干预措施新诊断出SHD。

模型性能与心脏病专家的比较

我们创建了一份定制调查问卷,以测试心脏病专家使用ECG检测SHD的能力,并与EchoNext模型进行比较。从NYP多中心测试集中提取了150份ECG,其SHD患病率(41%)和年龄分布(平均67.0±19.6岁)与整个数据集相似。ECG被去标识化并构建到调查问卷的定制界面中。对于非AI辅助的审查,心脏病专家会看到ECG波形、标准ECG衍生特征(心房或心室率、肺动脉瓣反流间期、QRS持续时间、校正的Q波至T波间期)、患者的年龄和性别,并被要求说明他们是否认为患者患有SHD。审查以50份ECG为一组进行,完成一组非AI辅助审查后,同一组50份ECG会重复进行,但在调查界面中添加了EchoNext评分(AI辅助审查)。每位心脏病专家最多可完成300次审查(150次非AI辅助结果和150次AI辅助结果)。

共有13名心脏病专家完成了3,200次ECG调查审查(1,600次无AI辅助,1,600次有AI辅助,平均每位心脏病专家审查246份ECG;补充表11)。在这150份ECG中,EchoNext模型的准确率为77.3%,敏感性为72.6%,特异性为80.7%。对于1,600次非AI辅助审查,心脏病专家的准确率为64.0%(95% CI 61.6–66.4%),敏感性为61.1%(95% CI 57.3–64.8%),特异性为66.1%(95% CI 63.0–69.1%)。值得注意的是,心脏病专家在临床上正常和异常ECG中的准确率有所不同(分别为69%和62%),而尽管SHD患病率存在显著差异(正常ECG为25%,异常ECG为46.5%),EchoNext的表现同样出色(两者均为77%)(补充表12)。在AI辅助下,心脏病专家的准确率显著提高到69.2%(95% CI 66.9–71.4%),敏感性为64.7%(95% CI 60.9–68.3%),特异性为72.4%(95% CI 69.4–75.3%)。因此,尽管AI辅助提高了心脏病专家在此任务中的预测准确性,但其综合表现仍落后于单独的AI。

此任务专注于使用ECG进行SHD检测,而未利用临床医生在临床实践中通常可获得的其他信息(临床病史、体格检查、其他测试数据)。

前瞻性验证

在开发EchoNext之前,研究者们创建了ValveNet,这是一种架构类似的AI-ECG模型,用于检测中度或以上的左侧VHD(特别是主动脉瓣狭窄、主动脉瓣反流和二尖瓣反流),这是SHD的一个子集。为了测试该模型检测具有临床意义的心脏病的能力,我们设计了DISCOVERY(使用深度学习在心电图波形阵列上检测SHD)试验,这是一项100名患者的开放标签分层抽样前瞻性试验,根据患者的ValveNet风险评分招募患者。符合条件的成年患者需在哥伦比亚大学进行过数字12导联ECG检查,并且在过去3年内在我们的系统中没有超声心动图检查史,没有左侧VHD病史,也没有痴呆或其他非心脏性危及生命的疾病且预期生存期少于1年。符合条件的患者根据其ValveNet评分进行招募,该评分被分为预先指定的风险三分位数(0–0.3,0.3–0.6,大于0.6)。由于心脏疾病风险极低,最低风险组被排除在外。

同意参与的患者接受了超声心动图检查。主要终点是检测中度或重度主动脉瓣狭窄、主动脉瓣反流或二尖瓣反流。关键次要终点是使用与EchoNext相同的定义和阈值检测所有形式的具有临床意义的SHD。重要发现会与患者和医生沟通,并由研究者协调对新诊断疾病进行适当的临床随访。

招募患者的中位年龄为80岁(四分位距72–86岁),43%为男性(补充表16)。共招募了53名高风险ValveNet评分的患者,其中17%对中度或以上左侧VHD呈阳性,53%对SHD呈阳性。共招募了47名中度风险ValveNet评分的患者,其中0%对左侧VHD呈阳性,19%对SHD呈阳性。

在比较高风险与中度风险ValveNet评分时,左侧VHD(P=0.005)和SHD(P=0.003)阳性患者数量存在显著差异。

试验完成后,使用EchoNext对100名患者的ECG进行了回顾性分析,并将其分为高、中、低风险组。这些组内的疾病发生率高度相关,如下所示:高风险组(n=33,24%患有左侧VHD,73%患有SHD),中风险组(n=50,2%患有左侧VHD,28%患有SHD)和低风险组(n=17,0%患有左侧VHD,6%患有SHD)。EchoNext在所有风险组之间的差异均显著(左侧VHD的P=0.002,SHD的P<0.001)。按风险组分层的个体疾病结果总结见补充表17。

SHD中的AI基准(跑分测试)

为了促进该领域的未来研究并创建可供模型基准测试的公开数据,我们在本文发表时发布了一组去标识化和注释的ECG数据。这些数据包括来自哥伦比亚大学欧文医学中心的36,286名独特患者的100,000份ECG(图4)。这些ECG代表了NYP多中心队列的一个子集,并根据匹配的超声心动图按照相同程序标记了SHD状态(以及各个组成部分)。我们将ECG分为训练集、验证集和测试集,并在此人群中训练了一个新模型,以下简称哥伦比亚迷你模型。该测试集中SHD的患病率为43%。

哥伦比亚迷你模型在所有八家医院中对SHD检测表现出高性能,AUROC为82.0%(95% CI 80.9–83.0%)(图4)。值得注意的是,尽管训练集较小且来自单一中心,但该模型的性能仅略低于完整的多中心训练的EchoNext模型,在相同的多中心测试集中AUROC为83.1%。

该数据集包括ECG波形、人口统计学和ECG特定的表格信息,以及所有相应的超声心动图标签,均已按照标准实践进行去标识化处理。所有日期信息在每个患者层面随机偏移超过1年,以保留同一患者不同研究之间的时间间隔。为了促进进一步研究并作为ECG基准,该数据集以及预处理代码和哥伦比亚迷你模型权重可在EchoNext库中获取,补充信息中提供了进一步的使用说明。随着时间的推移,该数据集还将通过进一步的研究和模态进行扩展。

讨论

我们在此介绍了用于检测SHD的EchoNext ECG深度学习模型的开发和性能,以及一项AI-ECG模型检测SHD的试点前瞻性试验。本研究的主要发现如下:(1) EchoNext模型能够准确检测一系列具有临床相关性的SHD,这些SHD值得进行超声心动图检查,这得益于多标签方法,以最好地捕捉各组成部分疾病标签之间的共线性和相关性;(2) EchoNext在来自4个医疗系统的11家医院(包括和不包括模型开发队列)中均表现出泛化能力;(3) 在高度多样化的患者人群中,模型在不同临床背景下的患者人口统计学特征(年龄、性别、种族和/或族裔)方面表现稳健;(4) 与心脏病专家相比,EchoNext在从ECG中检测SHD方面具有更高的准确性、敏感性和特异性,无论是否提供AI预测结果;(5) DISCOVERY试验证实了AI-ECG分析能够前瞻性地检测未诊断的心脏病,并具有足够的阳性预测值。此外,本研究发布的数据、代码和模型权重可以作为该领域未来研究的基准和催化剂。

通过AI扩展ECG的使用

即使在Einthoven博士获得1924年诺贝尔生理学或医学奖的百年纪念之际,ECG仍然是心脏病学的核心诊断测试。ECG的历史是一部不懈的技术进步史,从最初仅在研究环境中可用的600磅重的电流计心电图仪,发展到如今可以在任何地方进行并随处可见的数字ECG,甚至可以在家中和手腕上进行。过去十年将深度学习方法应用于ECG的工作延续了这一趋势,为心脏病检测开辟了新的见解和方法。

在这项工作中,我们通过将EchoNext AI模型与经认证的心脏病专家在从ECG中检测SHD方面的表现进行比较,提供了这种新用途的直接证据。需要明确的是,从ECG中显式检测大多数SHD——特别是在没有其他临床病史和体格检查的情况下——并不是标准的临床实践,因此,正如预期的那样,心脏病专家在这项任务中仅取得了适度的成功。相比之下,EchoNext模型的表现显著优于人类专家,在诊断敏感性和特异性方面均有提升。

这些数据共同展示了AI在帮助进一步扩展已经广泛使用且易于获取的测试的临床和诊断用途方面的潜力。事实上,即使在提供AI结果的情况下,EchoNext单独表现也显著优于心脏病专家,这一点值得进一步探索。临床专家可能仍然缺乏对AI系统的信任,尤其是在AI实现的性能此前被认为不可能的情况下。例如,心脏病专家并不依赖ECG结果来判断患者是否可能具有降低的LVEF,但降低的LVEF是EchoNext表现最高的组成部分疾病预测之一(AUROC 90.4)(图2c)。

需要进一步探索,以确定最佳策略,将AI提供的专业ECG解读与临床医生更广泛、更多样化的知识相结合,以改善对具有细微临床体征或可能缺乏持续临床护理的患者的检测。

医学AI模型必须从解释某一时间点的一项研究发展到做出全面的患者级预测。未来的模型可能会受益于多模态(例如,整合胸部X光、实验室结果和ECG)和多时间性(例如,使用患者的所有既往ECG)的结合。这些进步旨在创建对患者风险的全面预测。然而,这种方法带来了几个挑战。随着数据需求的增加,混杂因素和标签泄漏的风险也随之增加,可能导致模型看似表现良好但泛化能力差。此外,此类模型的集成和采用复杂性也大大增加。

转化为临床护理

弥合临床AI模型回顾性开发与其在改善临床护理方面疗效研究之间的差距至关重要。迄今为止,关于AI-ECG模型的前瞻性研究很少。DISCOVERY试验是第一个专门针对VHD检测和所有SHD更广泛复合体的试验。该试验的积极发现提供了关键确认:(1) 将AI-ECG模型应用于现实世界的预期使用人群(即患病率低于开发队列的人群)仍然产生了具有临床意义的表现(在这种情况下,SHD的阳性预测值大于50%);(2) 除了简单的二元风险预测外,观察到的疾病负担在模型预测风险的不同水平(中度与高风险)之间有所不同,可能能够针对不同用例进行性能调优。

鉴于这些积极的试验结果,该AI-ECG模型的其他方面也非常适合转化为临床实践。首先,基于模型输出应采取的预期临床行动是明确的:高风险结果应考虑进行超声心动图检查。异常ECG已经是超声心动图检查的常见指征,这进一步降低了对此响应的障碍。使用广泛的复合结果(定义为所有具有临床意义的SHD原因)作为模型目标是一种有意的策略,以优化模型的阳性预测值。尽管从提供者、患者和支付者的不同角度来看,真正“最优”的阳性预测值尚未定义,但EchoNext在试验队列中进一步改善了SHD的风险分层,这支持了这一动机。目前正在开展更大规模人群的下一代技术前瞻性研究。

需要承认的是,在临床环境中部署AI-ECG分析的理想方法仍在密切研究中。广义上,部署可以侧重于“安全网”或“守门人”应用。在前者中,AI-ECG分析用于触发额外的超声心动图检查,这些检查在机会性筛查中可能不会被推荐。这种方法可能会改善心脏疾病的群体水平识别,特别是在有检查不足风险的弱势患者群体中可能特别有用。在守门人策略中,AI-ECG分析的结果可用于确定当临床医生的先验概率低于某个阈值时,患者是否应接受超声心动图检查,以尝试防止不必要的检查。这两种策略的目标和影响截然不同,衡量其成功理想的统计指标——敏感性、特异性、阳性和阴性预测值——肯定会有所不同。这些统计指标的平衡也可能因临床场景而异。例如,在有症状的急诊科患者中,阴性预测值可能是最重要的指标,而在专注于无症状门诊患者的部署中,可能会以适度的敏感性为代价,专注于保持高阳性预测值。由于需要非常高的证据标准才能推翻临床医生根据病史和体格检查中广泛信息做出的进行超声心动图检查的判断,我们预计早期成功的部署将侧重于安全网机会性筛查,而不是守门人功能。需要更多的调查来确定使用AI模型进行机会性筛查方法的成本效益。

另一方面,使用AI模型进行筛查可能存在潜在的危害和/或偏见。例如,一个潜在的危害是与高风险预测相关的患者焦虑增加,特别是在最终为假阳性的情况下。技术人员或医生可能存在任意偏见,可能使怀疑者偏向于不诊断,而使爱好者偏向于诊断。然而,从长远来看,该模型应演变为与其他医学技术进步无异,并有助于“正常化”从而减轻这些担忧。尽管如此,仍有必要对这些主题进行进一步研究。

与先前工作的关系

在不同的医疗数据集中比较不同深度学习模型的准确性是一个巨大的挑战,不同的患者特征对AUROC和AUPRC等统计指标有显著影响。其他基于ECG的SHD模型,如rECHOmmend,在其回顾性数据集中表现出色,AUROC为91%。由于缺乏共享的公共数据集以及SHD定义的差异(例如,在rECHOmmend中,轻度至中度瓣膜疾病被分类为中度,而在EchoNext中被分类为轻度)和患病率(由于排除标准不同,rECHOmmend为17.9%,而EchoNext为36.3%),这些结果无法直接比较。例如,当限制在超声心动图确诊的患者时,rECHOmmend的表现被观察到下降(AUROC 0.88),从而增加了疾病患病率,这与本研究的做法相同。此外,本研究中的SHD标签捕获了98.9%的所有基于超声心动图的诊断,而rECHOmmend捕获了65.6%。与为类似病理开发的其他模型相比,本研究在许多内部或外部机构中显著增加了种族和/或族裔多样性。总体而言,本分析与先前发表的工作相结合表明,深度学习分析可以准确地单独或作为复合体检测SHD,在多种临床背景和地理上不同的外部测试集中具有高准确性。

局限性

我们的研究有几个局限性需要提及。某些标签需要为连续值(如LVEF和左心室壁厚度)任意决定二元截断值。最近的注册研究和试验将射血分数中度降低的心力衰竭定义为上限为55%、52.5%、50%和45%。本研究选择的阈值为45%,如果选择不同的截断值,结果可能会有所不同。补充表3包括了模型仅针对所有病理的“重度”疾病(例如,LVEF小于或等于35%而不是45%)的表现。将模型限制在不同的任意阈值上显示了类似的AUROC为87.7%,提供了性能不依赖于定义疾病的任何特定阈值的证据。本研究中呈现的AUPRC基于回顾性数据,其中患者同时有ECG和超声心动图,这是一个SHD患病率高得多的人群,因此不能代表如果将该模型用作对有ECG但无超声心动图的患者进行筛查研究时我们期望看到的AUPRC。由于尚不清楚有ECG但无超声心动图的患者中未诊断SHD的潜在患病率,我们在表3中模拟了一系列潜在患病率和模型的相应表现。

某些组成部分标签的表现欠佳。例如,左心室壁厚度是一个高度普遍的标签,但主观上存在很高的观察者间变异,从而引入了固有的标签噪声。像肺动脉瓣反流这样的罕见病症代表性不足,并且与三尖瓣反流最大速度等更普遍的病症高度相关(补充图4),这使得很难学习到肺动脉瓣反流独有的模式。此外,因为我们采用多标签方法在一个模型中训练所有标签以最好地捕捉共线性,模型优化被正则化以最小化所有标签的整体损失,某些标签的表现可能会被牺牲以确保整体表现更好。多标签方法有助于最好地捕捉组成部分疾病标签之间的共线性和相关性,并提供导致高风险预测结果的具体疾病(s)的见解,尽管不是结论性的。需要进一步研究以进行特定疾病的鉴别。

DISCOVERY试验前瞻性地招募患者,以评估该模型在一般临床使用中的表现。患者使用上一代模型ValveNet进行招募,该模型仅训练用于检测左侧VHD。试验完成后,在100名患者中评估了EchoNext模型的表现,这些患者均未包含在模型训练、验证或测试中。所有参与者均获得了书面同意。这项小型试验显示了有希望的结果,但需要更大、更实用的干预措施来确定EchoNext在常规临床护理之外的潜在益处。

总之,EchoNext 12导联ECG模型可以在一系列临床和地理环境中准确检测SHD的复合体,发布带有临床相关标签的基础ECG数据集可以作为模型比较和进一步创新的基准。未来的工作需要关注部署策略,以确定深度学习辅助的ECG分析是否可以用于改善临床实践中SHD的诊断和预后。

在线内容

任何方法、附加参考文献、Nature Portfolio报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息;作者贡献和竞争利益的详细信息;以及数据和代码可用性声明可在https://doi.org/10.1038/s41586-025-09227-0获取。

SPEED-TR:一种用于增强心电图检测三尖瓣反流的自蒸馏预训练Transformer模型

作者: Xiaolin Diao¹,⁵, Wei Xu²,³,⁵, Huaibing Cheng³,⁵, Ya Zhou¹,⁵, Yang Liu¹, Yanni Huo¹, Jianli Lu¹, Jinghan Huang³, Jia He³, Fang Liu³, Zhihui Cao¹, Xue Zhang¹, Wei Zhao⁴ & Xiaohan Fan²,³

摘要

三尖瓣反流(TR)由于缺乏有效的筛查工具而常常被漏诊。我们开发了一种用于从心电图(ECG)中检测TR的自蒸馏预训练Transformer模型(SPEED-TR)。该模型使用来自291,673名患者的466,149对心电图-超声心动图数据进行训练,并在一个内部队列(63,925名患者)和两个外部队列(44,951名和21,300名患者)中进行了验证。SPEED-TR在保留测试集中准确检测出中度至重度TR(AUROC 0.945,NPV 0.983;特异性0.973),并在多中心测试集中保持稳定性能(AUROC 0.939–0.943;NPV 0.978–0.988)。三个阈值使SPEED-TR能够进行严重程度分级:无(0–0.008)、轻度(0.008–0.255)、中度(0.255–0.755)和重度(0.755–1),在保留集、内部集和两个外部集中分别达到0.749、0.730、0.775和0.726的准确率,总体准确率为0.744。SPEED-TR在具有1至≥3个风险因素和1至≥2个瓣膜疾病的患者中仍保持稳健性。SPEED-TR显示出作为筛查工具的潜力,并可能为TR严重程度评估提供参考。

三尖瓣反流(TR)是最常见的瓣膜性心脏病(VHDs)之一,其患病率随年龄增长而增加¹。先前的研究报告称,无症状中度至重度TR患者的发病率约为2.7%至13.8%²,³。重度TR可能导致右心室负荷增加、心功能下降,甚至心力衰竭⁴。这些患者通常仅在出现明显右心衰竭症状后才被诊断和治疗⁵,⁶。然而,由于严重的全身性终末器官受累,此时期的药物和手术干预效果不佳,随后几年的全因死亡率在7.4%至69%之间⁷–⁹。手术技术的进步使得人们观察到早期手术干预与较低的并发症发病率、手术死亡率和长期死亡率相关¹⁰–¹²。此外,随着近年来经导管瓣膜介入技术的快速发展,经导管三尖瓣介入(TTVI)也取得了巨大进展。TTVI的最佳时机尚无定论,但一些研究指出应在早期阶段治疗TR¹³。因此,及时检测和干预可能更有利于TR患者的长期预后。开发一种实用且经济的TR早期筛查工具势在必行。

TR的传统诊断主要依赖于超声心动图(ECHO)、计算机断层扫描(CT)、磁共振成像(MRI)和中心静脉压,这些方法成本高昂且需要专业技术人员、造影剂和侵入性操作¹⁴。相比之下,心电图(ECG)具有操作简单、实时监测、广泛可用、无创和低成本等优势,使其成为高危人群大规模筛查的理想工具。然而,VHDs的ECG特征可能不具特异性,例如TR患者的ECG可能显示P波和QRS波形的改变、右心室肥大、右束支传导阻滞(RBBB)或心房颤动(AF)¹⁵。由于TR的ECG表现缺乏特异性,临床医生难以通过ECG诊断TR。近几十年来,人工智能(AI)技术逐渐被整合到心脏病的诊断中¹⁶。其中,AI在ECG分析中的应用受到越来越多的关注¹⁷。研究表明,ECG的深度学习模型在诊断AF¹⁸、左心室收缩功能障碍¹⁹、主动脉瓣狭窄(AS)²⁰和二尖瓣反流(MR)²¹方面具有有效性。此外,AI技术可能有助于识别人类难以检测的ECG上的某些细微特征²²。然而,很少有研究构建基于AI的ECG模型来诊断TR。

目的

本研究的目的是评估一种深度学习模型在使用标准12导联ECG检测TR方面的有效性。我们开发了用于增强三尖瓣反流心电图检测的自蒸馏预训练Transformer模型(SPEED-TR),这是一种基于Transformer的模型,结合了自蒸馏和自监督预训练,以增强对细微ECG特征的识别和TR检测。该模型在中国心血管疾病国家中心阜外(FW)医院的大规模ECG-ECHO配对数据集上进行训练。模型使用多中心数据集进行评估,包括一个内部数据集(来自FW医院)和两个外部测试集[来自云南阜外(YF)医院和深圳阜外(SF)医院的数据]。从多个维度评估了模型性能,包括不同TR程度、具有不同TR风险因素或其它VHDs的特定亚组。


QA

我知道tr是三尖瓣反流, 为什么起名字叫做speed? 

根据论文标题 “SPEED-TR: a self-distilled and pre-trained transformer model for enhanced ECG detection of tricuspid regurgitation” 以及摘要中的描述,可以明确得知:SPEED 是 “Self-Distilled and Pre-trained Transformer model for Enhanced ECG Detection” 的首字母缩写。具体来说:

  • Self-distilled
  • Pre-trained
  • Enhanced
  • ECG
  • Detection.

因此,模型全名是“用于增强心电图检测三尖瓣反流的自蒸馏预训练Transformer模型”,其中 TR 代表 Tricuspid Regurgitation (三尖瓣反流)

保留测试集又是啥?

内部队列”是这个保留测试集在临床研究中的常用称呼,强调其数据来源与开发机构相同。


结果

人群特征

表1展示了模型开发数据集(训练集、验证集和保留测试集)的基线特征。总体而言,开发数据集中TR患者的年龄较大,女性患者比例较高,且更可能患有其他VHDs。在ECG特征方面,TR患者的心率更快,PR间期和校正QT间期(QTc)更长,QRS间期更宽,心房颤动/心房扑动(AF/AFL)、室性早搏、右束支传导阻滞(RBBB)、室内传导延迟、右或左轴偏移以及肢体导联低电压的发生率更高。关于超声心动图测量,与无TR患者相比,TR患者的左心室射血分数(LVEF)降低。

表2展示了多中心评估数据集的基线特征。三个中心患者的平均年龄(56.5 ± 13.7、56.2 ± 14.1和50.8 ± 24.6)与模型开发数据集(55.4 ± 14.2、54.2 ± 14.2和54.4 ± 14.2)相似。由于样本量较大,部分ECG和超声心动图参数在有TR和无TR患者之间存在显著差异。

多中心数据集中的模型性能

图1展示了SPEED-TR模型在所有模型开发数据集和多中心评估数据集中的受试者工作特征曲线和精确率-召回率曲线。表3总结了模型在保留测试集、FW测试集和两个外部测试集中的评估指标。在保留测试集(图1C)中,SPEED-TR的受试者工作特征曲线下面积(AUROC)为0.945[95%置信区间(CI),0.939–0.951],精确率-召回率曲线下面积(AUPRC)为0.519(95%CI,0.487–0.552)。此外,该模型表现出优异的特异性(0.973)、敏感性(0.568)、阳性预测值(PPV)(0.448)和阴性预测值(NPV)(0.983)(表3)。进一步分析结果证明了各种模型组件的有效性(补充表1)。逻辑回归(LR)模型与SPEED-TR的性能比较见补充表2,显示出统计学显著差异(P< 0.05)。结果表明,SPEED-TR模型优于基于基线特征(LR模型1)或风险因素(LR模型2)构建的传统LR模型。

SPEED-TR的性能还在多中心验证测试数据集中进行了评估:FW内部测试集和两个外部测试集(YF和SF测试集)。在FW测试集(图1D)中,SPEED-TR的AUROC为0.939(95% CI,0.935–0.943),AUPRC为0.550(95% CI,0.531–0.571),特异性为0.977,敏感性为0.543。在YF和SF测试集(图1E,F)中,SPEED-TR模型的AUROC分别为0.943和0.937,AUPRC分别为0.496和0.372,特异性分别为0.976和0.971。PPV在三个测试集中有所不同,FW测试集中最高值为0.524,SF测试集中最低值为0.339。NPV在所有测试集中均保持较高水平(FW 0.978,YF 0.986,SF 0.988)。高NPV表明SPEED-TR模型具有强大的正确识别阴性病例的能力。总体而言,该模型的准确率在0.957至0.963之间,表明其在所有测试集中区分TR(中度或重度)和非TR(无或轻度)的能力很强。校准曲线显示了良好的概率估计,所有数据集中的布里尔分数在0.021至0.025之间(补充图1)。

基于SPEED-TR的TR程度分级

我们评估了SPEED-TR模型基于训练好的二元分类模型对TR程度(无、轻度、中度、重度)进行分级的能力。所有数据集中不同严重程度等级(无、轻度、中度和重度)的TR患病率见补充表3。图2展示了SPEED-TR模型在保留测试集、FW、YF、SF测试集以及总体多中心测试集(图2A–E)中不同TR严重程度组的预测概率分布。我们在每个子图中使用箱线图和散点图来展示模型对不同TR程度病例的预测概率。模型的预测概率是一个介于0和1之间的十进制数,值越接近0表示模型越可能将病例判断为阴性(无或轻度TR),值越接近1表示模型越可能将病例判断为阳性(中度至重度TR)。

结果表明,SPEED-TR在所有测试集中始终为中度和重度TR病例分配更高的预测概率。在所有测试集的重度TR亚组中,SPEED-TR表现出最高的中位预测概率,范围在0.60–0.80之间。

如图2F所示,通过在验证集上最大化F1分数,使用不同的超声心动图TR阳性结果定义(即定义至少轻度、至少中度或至少重度为阳性),确定了三个不同的概率阈值。然后使用这些阈值将TR程度严重性分类为:无(0至0.008)、轻度(0.008至0.255)、中度(0.255至0.755)和重度(0.755至1)。模型对TR程度分级的准确性也在保留测试集、FW、YF、SF测试集以及总体多中心测试集中进行了评估,分别达到0.749、0.730、0.775、0.726和0.744。

亚组分析

SPEED-TR模型在保留测试集中(补充图2A)和总体多中心测试集中不同风险因素的所有亚组中(图3A)均实现了超过0.764的AUROC[0.837 MR,0.898 LVEF< 50%,0.925 女性,0.924 年龄≥60岁,0.790 AF/AFL,和0.776 肺动脉高压(PH)]。在PH(0.776)和AF/AFL(0.790)患者中观察到AUROC略有下降。此外,即使在结合不同数量风险因素的个体中,模型的性能也保持了良好的判别能力,AUROC分别为0.923(零个)、0.903(一个)、0.883(两个)、0.784(三个)和0.759(超过三个风险因素)(图3A)。SPEED-TR模型的性能还在基于其他VHDs(包括AS、主动脉瓣反流(AR)、二尖瓣狭窄(MS)和MR)的亚组中进行了评估,在保留测试集(补充图2B)和多中心测试数据集的总体人群中(图3B,补充表6和7)。SPEED-TR模型的AUROC在保留测试集和总体多中心测试集中均保持稳定。在单一类型VHD的患者中,AS的AUROC为0.929,AR为0.891,MR为0.837,MS为0.783,MS亚组中观察到有所下降。

当个体被分类为结合零个、一个、两个或超过两个VHDs的亚组时,模型的AUROC仍分别超过0.815,表明模型在瓣膜疾病负担增加的情况下仍能保持性能。保留测试集中不同风险因素或VHDs亚组的AUROC与总体多中心测试集中的结果一致。其他性能指标的详细结果,包括AUPRC、敏感性、特异性、PPV、NPV、F1分数和准确性,见补充表4–7。

此外,我们进行了额外的亚组分析,以评估模型在不同ECG亚型中的性能,包括:同时具有RBBB和右轴偏移(RAD)的患者、仅有RBBB或仅有RAD的患者,以及既无RBBB也无RAD的患者。结果显示,在保留测试集和多中心外部测试集中,所有这些亚组中的模型性能一致(补充表8,补充图3)。

讨论

本研究开发了一种AI模型(SPEED-TR),用于使用单个标准12导联ECG筛查TR。模型性能在保留测试集(AUROC 0.945)和多中心内部(AUROC 0.939)及外部验证测试数据集(AUROC分别为0.943和0.937)中表现出稳定且强大的中度至重度TR检测能力。该模型在具有不同TR风险因素或VHDs的多样化人群中也表现出良好的性能,无论是单独存在还是结合多种风险因素或VHDs。此外,模型输出的概率值似乎与TR严重程度分级相关,表明其在区分不同TR程度方面可能发挥作用,这有待进一步验证。这些发现表明,SPEED-TR模型可能在资源有限的环境中提供一种具有成本效益的TR初步筛查工具。

先进的AI技术在自然语言处理和计算机视觉等领域表现出强大的性能²³–²⁵。大多数先前基于AI的ECG诊断模型研究集中在主动脉和二尖瓣病变上,针对TR诊断模型的研究数量有限¹⁵,²⁶。Elias等人使用来自77,163名患者的ECG-ECHO数据集开发并验证了一个卷积神经网络(CNN)模型,以识别左侧VHDs,包括AS、AR和MR,其AUROC值范围为0.77至0.88,PPV为20%,NPV为97.6%²¹,但该研究未包括TR。一项包含10项研究的荟萃分析证明了基于ECG的AI筛查VHD的巨大价值,模型高度准确,敏感性、特异性和NPV优秀,但PPV较低(13%),推测可能与ECG记录的内在变异性有关²⁷。然而,在这项荟萃分析中,只有Ulloa-Cerna等人的研究专注于TR,并开发了一个CNN模型,在单独预测TR时PPV仅为0.16²⁶。Lin等人的研究也表明,尽管调整了年龄和性别,该模型诊断TR的AUROC仅为0.841,PPV为0.392,NPV为0.942¹⁵。这些发现进一步强调了使用ECG AI模型检测TR的挑战。

与传统的基于CNN的监督学习方法不同,我们的研究探索了基于Transformer的自监督学习结合自蒸馏策略在TR检测中的应用。所提出的方法利用了Transformer架构的自注意力机制,能够更高效地捕捉全局信息。这种方法允许通过自监督学习从大量未标记数据集中提取内在的ECG模式。此外,自蒸馏的引入增强了模型的性能,提升了其潜力。通过使用这种自蒸馏方法,我们的模型在保留测试集中实现了高且稳定的AUROC,并在多中心内部和外部测试数据集中保持了一致的性能。最大的ECG-ECHO配对数据样本量可能是我们模型稳健性能的一个重要因素。因此,SPEED-TR模型在AUROC、特异性、PPV和NPV方面优于先前研究开发的模型¹⁵,²⁶。

我们的亚组分析结果表明,SPEED-TR模型在多样化人群中保持了高判别能力,包括具有一个或多个TR风险因素(例如,LVEF降低、女性、年龄≥60岁、AF/AFL、PH)的人群,以及具有一种或多种其他类型VHDs(例如,AS、AR、MS和MR)的人群。除了PH、AF/AFL或MS患者外,SPEED-TR模型在具有一种其他风险因素或VHDs的患者中实现了超过0.8的AUROC。尽管在具有超过2个风险因素或VHDs的患者中解释ECG特征存在挑战,SPEED-TR的表现仍然良好,AUROC在0.759至0.883之间。此外,SPEED-TR模型在所有测试集中表现出一致的高NPV(高于0.97)。在大多数具有一种风险因素或一种VHDs的患者中,NPV一致地高于0.832,除了PH(0.795)或超过3个风险因素(0.712)的患者。

尽管AUROC保持较高,但PPV和AUPRC相对较低,这可能归因于数据集中TR病例的低患病率。与AUROC不同,PPV和AUPRC对类别不平衡更敏感,并且在阳性病例患病率较低时往往会下降²⁶。我们通过在验证集上最大化F1分数来选择分类阈值,以平衡TR检测的敏感性和PPV。阈值选择过程非常重要,因为它直接影响模型如何适应临床环境,确保其在实际应用中优化性能。需要注意的是,该模型是阈值无关的,可以根据不同的临床优先级进行调整。例如,在筛查环境中降低阈值可以提高敏感性以减少漏诊病例,而在资源受限的环境中提高阈值可以改善PPV以限制不必要的随访。这些权衡反映在精确率-召回率曲线上,可以帮助临床医生选择适合其特定环境的阈值。

SPEED-TR模型还展示了通过使用三个不同阈值从ECG估计TR严重程度分级的潜力,以识别可能的TR程度(无、轻度、中度和重度),在多个数据集中准确率超过72%。值得注意的是,该模型在识别无TR或重度TR患者方面表现出高判别力,表明其在有效排除低风险个体的TR和提示高预测概率患者进行进一步超声心动图评估方面具有实用性。然而,在区分轻度和中度TR方面性能相对较低,可能由于临床特征重叠。SPEED-TR模型可能在大规模筛查项目或资源有限的环境中用于识别更可能从超声心动图检查中受益的患者,同时可能减少低预测风险患者的不必要影像检查。未来的研究应纳入多模态数据,以进一步优化其临床适用性,特别是在评估临界TR严重程度方面。需要提到几个局限性。首先,本研究中TR的诊断基于超声心动图报告,可能受到不同超声医师解读差异的影响。然而,大量的超声心动图-心电图配对数据和多中心数据集可能平衡了不同超声医师之间变异的混杂因素。其次,由于本研究仅纳入了中国人群,SPEED-TR模型在其他种族人群中的普适性可能有限。未来需要涉及多样化国际队列的研究来进一步验证和增强其普适性。第三,本研究排除了植入起搏器或既往接受三尖瓣手术的患者。因此,无法评估SPEED-TR在这一部分人群中的性能。此外,由于超声心动图报告中缺乏常规病因分类,SPEED-TR无法对心房性、心室性或混合性TR亚型进行单独评估。鉴于最近的研究强调了这些亚型之间的重要差异,未来的研究有必要探索亚型特异性模型性能²⁸。

总之,本研究开发了SPEED-TR模型,用于使用标准12导联ECG筛查TR,在所有多样化的评估数据集中表现出稳健的性能。亚组分析进一步验证了模型在有或无VHDs和/或TR风险因素患者中的一致良好性能。模型输出概率与TR严重程度之间的关联表明,该模型可能为TR分级提供参考价值。SPEED-TR模型可作为一种无创且可扩展的筛查工具,快速排除TR或识别需要进一步超声心动图评估的高风险患者。

方法

研究人群

图4展示了研究设计和数据纳入与排除的示意图。2015年1月至2022年12月期间来自FW医院的数据被连续收集并筛选用于模型开发。多中心数据用于性能评估,包括2023年1月至2023年6月期间来自FW医院的内部测试集,以及2022年1月至2023年12月期间来自YF医院和SF医院的外部测试集。本研究遵循赫尔辛基宣言进行,并获得阜外医院伦理委员会批准(批准号:2023-1945),并获得了深圳阜外医院和云南阜外医院的当地批准。机构审查委员会允许我们免除获取知情同意的要求,因为数据是为常规患者护理获取的,且本研究使用的所有数据均为临床目的获取并匿名处理。

在模型开发阶段(图4A),使用了两个数据集:用于模型预训练的预训练集和用于模型后训练的ECG-ECHO配对集。最初考虑了2015年1月至2022年12月期间在FW医院至少有一次标准10秒12导联ECG(仰卧位采集)且具有完整数字数据和ECG报告的成年患者,形成了包含516,884名患者和861,324份ECG的初始池。对于ECG-ECHO配对集,排除了没有超声心动图报告的患者。收集了350,767名患者及其674,306份可用ECG,以及每份ECG最接近的配对超声心动图报告以供进一步分析。排除标准包括:1)ECG-超声心动图配对间隔超过30天;2)接受过心脏移植、除颤器或起搏器植入、左心室辅助装置植入、三尖瓣成形术或置换术的患者的ECG-超声心动图配对;3)超声心动图报告中未明确诊断或分类瓣膜狭窄或反流的ECG-超声心动图配对。排除后,纳入了291,673名患者的466,149份ECG-超声心动图配对数据。随后按8:1:1的比例将其分为233,339名患者用于训练,29,167名患者用于验证,29,167名患者用于保留测试。最后,对于具有多份ECG-超声心动图配对的患者,所有372,476份配对均纳入训练集,而验证集(29,167份ECG-超声心动图配对)和保留测试集(29,167份ECG-超声心动图配对)仅保留最早的配对。对于预训练集,我们从初始池中排除了上述验证集和测试集患者的ECG,最终纳入了458,550名患者的666,020份ECG。

对于多中心评估,我们收集了一个内部测试集(FW测试集)和两个外部测试集,即YF和SF测试集(图4B)。根据相同的纳入和排除标准,纳入了至少有一份可用ECG和配对超声心动图报告的成年患者。与验证集和保留测试集一致,仅使用每位患者的最早ECG-超声心动图配对数据。最终,FW测试集包括了2023年1月至2023年6月的63,925份ECG-超声心动图配对。YF测试集包括了来自YF医院的44,951份ECG-超声心动图配对,SF测试集包括了2022年1月至2023年12月期间来自SF医院的21,300份ECG-超声心动图配对。总体多中心集包括了来自130,176名患者的130,176份ECG-超声心动图配对。

结局定义

本研究中的结局TR是根据心脏超声医师的超声心动图报告确认的。超声心动图使用Epic7C彩色多普勒超声仪、S5-1、S8-3探头、频率范围2.5~7.5 MHz,由经验丰富的超声医师按照标准化协议进行²⁹,³⁰。超声心动图评估包括测量LVEF、左心室舒张末期内径(LVEDD)、右心室直径(RVD)和其他超声参数。TR程度根据2017年美国超声心动图学会瓣膜反流推荐,从多个超声心动图视图进行评估²⁵。使用缩流颈宽度进行定量评估以辅助TR严重程度分级,根据超声心动图报告分为无、轻度、中度或重度。我们将中度或重度反流定义为TR阳性。无反流或轻度反流则定义为TR阴性。

临床特征收集与定义

从电子病历系统中收集所有患者的人口统计学和临床数据以及相关病史。本研究中的所有数字ECG均以500 Hz采样率由GE-Marquette ECG机(Marquette, Milwaukee, Wisconsin)或福田电子机(Fukuda Denshi Co., Ltd, Tokyo, Japan)获取。ECG特征和超声心动图测量由医师从ECG报告和超声心动图报告中审核。本研究中考虑的VHDs包括AS、AR、MS、MR,如果根据超声心动图报告确认为中度或重度,则定义为阳性。PH定义为超声心动图上收缩期肺动脉压(sPAP)> 40 mmHg,或在sPAP估计可能不可靠的特定情况下(例如,伴有分流的先天性心脏病、重度三尖瓣反流、右心室流出道梗阻或显著肺动脉瓣狭窄)平均肺动脉压(mPAP)≥25 mmHg³¹–³³。此外,本研究中的主动脉瓣手术定义包括主动脉瓣成形术、主动脉瓣置换术、经导管主动脉瓣植入术。二尖瓣手术包括二尖瓣成形术、二尖瓣置换术或经导管二尖瓣修复术。

模型开发

我们开发了一种基于Transformer的深度学习模型SPEED-TR,以增强从标准12导联ECG信号中检测TR的能力。该模型基于用于ECG分类的掩码Transformer-Tiny(MTECG-T)架构³⁴,该架构在ECG解读任务中已证明有效。在本研究中,SPEED-TR专门针对TR检测进行了调整,包含一个具有12个Transformer块的编码器、一个单Transformer块解码器和一个用于TR检测的二元线性分类器。编码器-解码器结构遵循原始MTECG-T框架,允许有效提取特征和序列建模。模型通过沿时间维度将ECG信号分割成一系列非重叠段来处理ECG信号,保留了与TR相关的结构信息。

为了增强模型性能,我们采用了两阶段训练过程(图5):在包含666,020份未标记ECG的预训练集上进行自监督预训练,随后在包含372,476份标记TR的ECG的训练集上进行后训练,结合自蒸馏。

在预训练期间,我们采用了MTECG-T的自监督学习方法,以减少信息冗余并增强内在ECG模式的提取。模型结构为编码器-解码器网络,任务是基于剩余75%的ECG段重建25%随机掩码的ECG段的每段归一化,使用均方误差损失进行优化。此阶段的所有超参数设置遵循MTECG-T中建立的配置。通过使用这种自监督预训练方法,模型能够在不依赖诊断标签的情况下学习内在的ECG表示。这种方法与计算机视觉和自然语言处理中的成熟实践一致,即使用大规模未标记数据来增强下游任务的性能²⁴,³⁵。我们观察到,这种预训练方法在TR检测的所有评估指标上都带来了显著改进(见补充表1)。

在后训练阶段,我们采用自蒸馏策略来提升性能²³。自蒸馏是一种模型通过学习自身预测来改进的技术,采用教师-学生设置,使用相同的架构。具体来说,我们通过移除解码器并附加一个全局池化层和一个二元线性分类器,将预训练编码器转换为TR检测模型。教师模型和学生模型均使用相同的权重初始化。教师模型使用二元交叉熵损失训练50个周期,超参数与MTECG-T中建立的一致。保留验证集上AUPRC最高的检查点作为最终的教师模型。然后,学生模型使用混合损失函数训练50个周期,该函数由二元交叉熵(权重:0.3)和教师与学生logits之间的Kullback-Leibler(KL)散度(权重:0.7)加权组合而成,温度参数设置为2³⁶。选择验证AUPRC最高的学生模型检查点作为最终的SPEED-TR模型。值得一提的是,预训练和后训练阶段的训练集之间存在ECG信号的重叠,这增加了整体训练数据量,并符合迁移学习中的常见实践²⁴。测试集在整个训练过程中严格保留,确保训练和评估阶段之间没有数据泄露。

性能评估

模型性能在保留测试集、FW测试集、YF测试集和SF测试集上进行评估(图5)。为了全面分析,我们计算了多种指标,包括AUROC、AUPRC、敏感性、特异性、PPV、NPV、准确性和F1分数。使用自举法提供了这些指标的95%置信区间。还展示了校准曲线和布里尔分数以评估校准性能。

此外,评估了各种模型组件的有效性,并训练了逻辑回归(LR)模型作为比较,包括基于基线特征的17个变量(LR模型1)或根据先前文献确定的TR风险因素,包括MR(中度及以上)、射血分数降低(LVEF< 50%)、女性、老年(≥60岁)、心房颤动或扑动(AF/AFL)和PH³⁷(LR模型2)与SPEED-TR模型进行比较。应用Delong检验对LR模型和SPEED-TR进行统计比较。此外,我们评估了模型在总体多中心集中基于训练好的二元分类模型对TR严重程度(无、轻度、中度、重度)进行分级的能力。我们通过箱线图和散点图分析了模型在不同TR严重程度下的预测概率分布。通过在验证集上最大化不同TR程度阳性结局定义(无、轻度、中度、重度)的F1分数来确定概率阈值,并在所有四个测试数据集中评估了分级准确性。

亚组分析和统计分析

在总体多中心集中,我们根据先前文献评估了SPEED-TR模型在具有特定TR风险因素患者中的性能,包括MR、射血分数降低(LVEF< 50%)、女性、老年(≥60岁)、AF/AFL和PH³⁷。AF/AFL通过ECG报告确认。具体来说,我们在具有和不具有每个TR风险因素的子集中计算了评估指标,并进一步比较了具有不同数量这些风险因素的患者群体之间的性能,以比较模型在不同复杂性人群中识别TR的能力。此外,在具有其他典型VHDs(包括AS、AR、MS、MR)以及两种或更多VHDs组合的患者子集中进行了亚组分析。还进行了额外的亚组分析,以评估模型在RBBB和RAD重要ECG亚型中的性能。

在描述性分析中,连续变量根据数据正态性通过双样本t检验或Mann-Whitney U检验报告为均值±标准差或中位数与四分位距。分类变量以频率和百分比汇总,并使用卡方检验进行比较。统计分析使用Python(版本3.8)进行。

数据可用性

由于患者隐私和伦理限制,本研究生成和分析的数据集未公开,但可根据合理请求从通讯作者处获取。

代码可用性

本研究中使用的最终模型架构和自蒸馏代码已在GitHub上公开:https://github.com/fwaiaccount/MTECG-SPEED-TR/

收稿日期:2025年6月15日;接受日期:2025年9月17日;

参考文献

  1. Hahn, R. T. Tricuspid Regurgitation. N. Engl. J. Med. 388, 1876–1891, https://doi.org/10.1056/NEJMra2216709(2023).
  2. d’Arcy, J. L. et al. Large-scale community echocardiographic screening reveals a major burden of undiagnosed valvular heart disease in older people: the OxVALVE Population Cohort Study. Eur. Heart J. 37, 3515–3522, https://doi.org/10.1093/eurheartj/ehw229 (2016).
  3. Tsampasian, V. et al. Prevalence of asymptomatic valvular heart disease in the elderly population: a community-based echocardiographic study. Eur. Heart J. Cardiovasc. Imaging https:// doi.org/10.1093/ehjci/jeae127(2024).
  4. Topilsky, Y. et al. Clinical presentation and outcome of tricuspid regurgitation in patients with systolic dysfunction. Eur. Heart J. 39, 3584–3592, https://doi.org/10.1093/eurheartj/ehy434(2018) .
  5. Adamo, M. et al. Epidemiology, pathophysiology, diagnosis and management of chronic right-sided heart failure and tricuspid regurgitation. A clinical consensus statement of the Heart Failure Association(HFA) and the European Association of Percutaneous Cardiovascular Interventions(EAPCI) of the ESC. Eur. J. Heart Fail 26, 18–33, https://doi.org/10.1002/ejhf.3106(2024).
  6. Hahn, R. T.& Zamorano, J. L. The need for a new tricuspid regurgitation grading scheme. Eur. Heart J. Cardiovasc. Imaging 18, 1342–1343, https://doi.org/10.1093/ehjci/jex139(2017).
  7. Obayashi,Y. et al. Tricuspid regurgitation inelderly patientswithacute heart failure: insights from the KCHF registry. ESC Heart Fail 10, 1948–1960, https://doi.org/10.1002/ehf2.14348(2023).
  8. Chorin, E. et al. Tricuspid regurgitation and long-term clinical outcomes. Eur. HeartJ. Cardiovasc. Imaging 21, 157–165, https://doi. org/10.1093/ehjci/jez216(2020).
  9. Samim, D. et al. Natural history and mid-term prognosis of severe tricuspid regurgitation: A cohort study. Front Cardiovasc. Med. 9, 1026230. https://doi.org/10.3389/fcvm.2022.1026230(2022).
  10. Wang, T. K. M. et al. Early surgery is associated with improved long-term survival compared to class I indication for isolated severe tricuspid regurgitation. J. Thorac. Cardiovasc. Surg. 166, 91–100, https://doi.org/10.1016/j.jtcvs.2021.07.036(2023).
  11. Hua, K. et al. Early surgery can improvethe outcomes of patients with severe tricuspid regurgitation undergoing tricuspid replacement. Cardiovasc. Diagn. Ther. 11, 1058–1066, https://doi.org/10.21037/ cdt-21-311(2021).
  12. Sala, A. et al. Isolated tricuspid valve surgery: first outcomes report according to a novel clinical and functional staging of tricuspid regurgitation. Eur. J. Cardiothorac. Surg. 60, 1124–1130, https://doi. org/10.1093/ejcts/ezab228(2021).
  13. Welle, G. A. et al. New approaches to assessment and management of tricuspid regurgitation beforE INTERVEntion. Jacc. Cardiovasc. Intervent. 17, 837–858, https://doi.org/10.1016/j.jcin.2024.02.034 (2024).
  14. Hahn, R. T. et al. Tricuspid regurgitation: recent advances in understanding pathophysiology, severity grading and outcome. Eur. Heart J. Cardiovasc. Imaging 23, 913–929, https://doi.org/10.1093/ ehjci/jeac009(2022).
  15. Lin, Y. T. et al. Comprehensive clinical application analysis of artificial intelligence-enabled electrocardiograms for screening multiple valvular heart diseases. Aging 16, 8717–8731, https://doi.org/10. 18632/aging.205835(2024).
  16. Sengupta, P. P., Kluin, J., Lee, S. P., Oh, J. K.& Smits, A. The future of valvular heart disease assessment and therapy. Lancet 403, 1590–1602, https://doi.org/10.1016/s0140-6736(23)02754-x(2024).
  17. Ose, B. et al. Artificial intelligence interpretation of the electrocardiogram: a state-of-the-art review. Curr. Cardiol. Rep. 26, 561–580, https://doi.org/10.1007/s11886-024-02062-1 (2024).
  18. Khurshid, S. et al. ECG-based deep learning and clinical riskfactorsto predict atrialfibrillation. Circulation 145, 122–133, https://doi.org/10. 1161/circulationaha.121.057480(2022).
  19. Attia, Z. I. et al. Screening for cardiac contractile dysfunction using an artificial intelligence-enabledelectrocardiogram.Nat.Med.25,70–74, https://doi.org/10.1038/s41591-018-0240-2(2019).
  20. Cohen-Shelly, M. et al. Electrocardiogram screening for aortic valve stenosis using artificial intelligence. Eur. Heart J. 42, 2885–2896, https://doi.org/10.1093/eurheartj/ehab153(2021).
  21. Elias, P. et al. Deep learning electrocardiographic analysis for detection of left-sided valvular heart disease. J. Am. Coll. Cardiol. 80, 613–626, https://doi.org/10.1016/j.jacc.2022.05.029(2022).
  22. Cabitza, F. et al. Rams, hounds and white boxes: Investigating human-AI collaboration protocols in medical diagnosis. Artif. Intell. Med. 138, 102506. https://doi.org/10.1016/j.artmed.2023.102506 (2023).
  23. Pham, M. et al. Revisiting self-distillation. arXiv cs.LG, arXiv:2206.08491, https://doi.org/10.48550/arXiv.2206.08491 (2022).
  24. He, K. et al. inProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 16000–16009.
  25. Devlin, J. et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proc. 2019 Conf. North Am. Chapter Assoc. Comput.Linguist.: Hum. Lang. Technol.1,4171–4186. https:// doi.org/10.18653/v1/N19-1423(2019).
  26. Ulloa-Cerna, A. E. et al. rECHOmmend: an ECG-based machine learning approach for identifying patients at increased risk of undiagnosed structural heart disease detectable by echocardiography. Circulation 146, 36–47, https://doi.org/10.1161/ circulationaha.121.057869(2022).
  27. Singh, S. et al. Meta-analysis of the performance of AI-driven ECG interpretation in the diagnosis of valvular heart diseases. Am. J. Cardiol. 213, 126–131, https://doi.org/10.1016/j.amjcard.2023.12. 015(2024).
  28. Muraru, D. et al. Atrial secondary tricuspid regurgitation: pathophysiology, de fi nition, diagnosis, and treatment. Eur. heart J. 45, 895–911, https://doi.org/10.1093/eurheartj/ehae088 (2024).
  29. Lancellotti, P. et al. Recommendations for the echocardiographic assessment of native valvular regurgitation: an executive summary from the EuropeanAssociation of Cardiovascular Imaging. Eur. heart J. Cardiovasc. Imaging 14, 611–644, https://doi.org/10.1093/ehjci/ jet105(2013).
  30. Baumgartner, H. et al. 2017 ESC/EACTS guidelines for the management of valvular heart disease. Eur. Heart J. 38, 2739–2791, https://doi.org/10.1093/eurheartj/ehx391(2017).
  31. McLaughlin, V. V. et al. ACCF/AHA 2009 expert consensus document on pulmonary hypertension a report of the American College of Cardiology Foundation Task Force on Expert Consensus Documents andtheAmericanHeartAssociationdeveloped incollaborationwiththe American College of Chest Physicians; American Thoracic Society, Inc.; andthe Pulmonary HypertensionAssociation.J.Am. Coll. Cardiol. 53, 1573–1619, https://doi.org/10.1016/j.jacc.2009.01.004(2009).
  32. Augustine, D. X. et al. Echocardiographic assessment of pulmonary hypertension: a guideline protocol from the British Society of Echocardiography. Echo Res. Pract. 5, G11–g24, https://doi.org/10. 1530/erp-17-0071(2018).
  33. Galiè, N. et al. 2015 ESC/ERS Guidelines for the diagnosis and treatment of pulmonary hypertension: The Joint Task Force for the Diagnosis andTreatment of Pulmonary Hypertensionof the European Society of Cardiology(ESC) and the European Respiratory Society (ERS): Endorsed by: Association for European Paediatric and Congenital Cardiology(AEPC), International Society for Heart and Lung Transplantation(ISHLT). Eur. Heart J. 37, 67–119, https://doi. org/10.1093/eurheartj/ehv317(2016).
  34. Zhou, Y. et al. Enhancing automatic multilabel diagnosis of electrocardiogramsignals:A maskedtransformerapproach. Comput. Biol. Med. 196(PtA), 110674, https://doi.org/10.1016/j.compbiomed. 2025.110674(2025).
  35. Devlin, J., Chang, M.-W., Lee, K.& Toutanova, K. inProceedings of the 2019 Conference of the NorthAmerican Chapter of theAssociation for Computational Linguistics: Human Language Technologies, 1. 4171–4186.
  36. Hinton, G. et al. Distilling the knowledge in a neural network. arXiv arXiv:1503.02531[stat.ML], https://doi.org/10.48550/arXiv.1503. 02531(2015).
  37. Benfari, G. et al. Excess mortality associated withfunctional tricuspid regurgitationcomplicating heart failurewith reduced ejectionfraction. Circulation 140, 196–206, https://doi.org/10.1161/circulationaha. 118.038946(2019).

致谢

本研究由国家高水平医院临床研究基金(2022-GSP-GG-14)资助。W.X.感谢中国博士后科学基金会博士后奖学金计划的支持(资助号:GZC20240151)。

作者贡献

X.F.和W.Z.参与了工作的构思或设计。X.D.参与了工作数据的获取、分析或解释,并撰写了部分手稿。W.X.和H.C.参与了数据解释并撰写了手稿。Y.Z.领导了算法设计和源代码开发,进行了数据分析,参与了部分手稿的撰写,并准备了部分表格。Y.L.、Y.H.、J.L.、J. Huang、J.He、F.L.、Z.C.和X.Z.参与了数据获取。Y.L.、Y.H.、J.L.和Z.C.进行了实验,分析了数据,并参与了结果的解释和展示。所有作者审阅并修改了手稿,批准了最终版本,并同意对工作的各个方面负责,以确保其完整性和准确性。

竞争利益

作者声明无竞争利益。

附加信息

补充信息 在线版本包含可在https://doi.org/10.1038/s41746-025-02011-4

获取的补充材料。

通讯和材料请求应联系Wei Zhao或Xiaohan Fan。

出版商声明 Springer Nature对已发表地图和机构隶属关系中的管辖权声明保持中立。

开放获取 本文根据知识共享署名-非商业性-禁止演绎4.0国际许可协议授权,该协议允许任何非商业用途、共享、分发和复制,只要您给予原作者和来源适当的署名,提供指向知识共享许可的链接,并注明是否对许可材料进行了修改。您无权根据此许可共享从本文或其部分内容衍生的改编材料。本文中的图像或其他第三方材料包含在文章的知识共享许可中,除非在材料的署名行中另有说明。如果材料未包含在文章的知识共享许可中,且您的预期用途不受法定法规许可或超出许可用途,您需要直接从版权所有者处获得许可。

本文由作者按照 CC BY 4.0 进行授权