时间:2025-03-07 16:42
阿尔茨海默病(AD)是痴呆症最常见的原因,有一个漫长的前驱期,在此期间会发生微妙的认知变化。轻度认知障碍(MCI)是介于正常认知和AD之间的一个阶段。患有轻度认知障碍的人患AD的风险更高,每年轻度认知障碍转化为AD的几率为3%至15%。因此,准确预测MCI向AD的进展可以帮助医生做出有关患者治疗、参与认知康复计划和选择涉及新药的临床试验的决策。
传统上,AD病理可以使用生物标志物,如脑脊液分析或神经成像技术,如正电子发射断层扫描(PET)和磁共振成像(MRI)来评估。一些研究已经探索了这些模式来预测从轻度认知损伤到痴呆的转变。尽管这些技术提供了有用的信息,但它们是侵入性的和昂贵的,限制了它们在资源充足的地方的适用性,并且缺乏中低收入国家所需的可扩展性和可及性。此外,通过影像学技术观察到阿尔茨海默病的临床和病理差异,这给准确诊断和预后带来了挑战。
相比之下,通过面对面访谈进行的神经心理测试(NPT)是目前评估认知能力下降的最容易获得的方法。NPT由患者病史触发,并结合临床检查,提供认知功能的全面评估,包括注意力、记忆、语言和视觉空间能力。研究人员已经探索了基于计算机的方法,使用NPTs,来预测从MCI到AD的进展,主要依靠手工制作的特征和临床医生从NPT中提取的认知评分。然而,这些方法尚未实现完全自动化,限制了它们更精确和有效的认知评估的潜力。
另一方面,NPT中的言语可以是认知能力下降的一个强有力的预测指标,和各种人工智能(AI)辅助诊断模型已经开发出来,这些模型使用从NPT中提取的语言和声学特征。弗雷明汉心脏研究(FHS)是目前进行时间最长的慢性疾病纵向、跨代队列研究,自2005年以来一直在对NPT访谈进行数字记录,这些录音包括所有主要的认知测试,如波士顿命名测试(BNT)、Hooper视觉组织测试和韦氏记忆量表(WMS)。一些研究利用这些录音来开发诊断工具。例如,开发了一种基于语音的预测器,利用声学特征来识别痴呆症。在我们早期的工作中,我们对录音使用自然语言处理(NLP)来将每个人置于痴呆症谱系中。NLP,特别是随着ChatGPT的引入而普及的大型语言模型(LLM),已经成为医疗保健领域的强大工具,在各种任务中表现出可靠的性能。我们的自动化管道使用NPT的音频记录来预测MCI受试者在6年内过渡到AD的可能性。我们强调,我们的分析只使用文本自动转录从这些录音,它不依赖于任何声学特征。通过利用基于转换器的语言模型,我们的目标是捕捉传统评分可能错过的语义细微差别,用全面的文本特征丰富评估。这强调了我们开发一种成本效益高的自动化工具的计划,该工具在检测AD进展方面优于传统方法。在没有临床医生参与的情况下,通过网络界面远程进行NPT面谈,可以进一步降低筛查成本。该管道结合了多种计算技术,包括语音识别、语音化、基于变压器的句子编码器和逻辑回归模型。
对166名认知障碍患者进行FHS连续监测,其中包括男性59人,女性107人,年龄中位数为81岁(63-97岁)。值得注意的是,我们队列的人口构成主要是白人,反映了参与者所来自的特定人群。每个参与者都进行了大约1小时的NPT,并以。wav格式记录和保存。FHS进行的NPT包括评估不同认知领域的子测试,如记忆、命名和语言、视觉感知技能、抽象推理和注意力。其他信息,如教育程度、载脂蛋白E (APOE)基因等位基因的类型和健康风险因素(如血糖、糖尿病、高血压等)也可获得。所有的参与者都有一个完整的NPT,为MCI诊断分配。认知状态的分配,如AD诊断和MCI对那些表现出认知能力下降的迹象,是由至少一名神经学家和一名神经心理学家根据神经学检查、FHS研究和外部医疗记录以及脑成像达成共识的。
我们开发了一个自动转录录音的工具。每个话语都被记录下来(即,归于说话者:参与者或考官),每个文字记录被分成八个子测试,包括FHS NPT。其中一些子测试是认知评估的一部分,如WMS,韦氏成人智力量表(WAIS),以及WAIS的修订版(WAIS‐R)。此外,还有其他一些经常独立进行的测试,包括BNT、口头流利性测试(FAS)、和时钟绘画测试(CDT)。另外两个子测试是DEMO,它表示与人口统计信息相关的访谈的一部分,以及other,它包括未在定义的子测试中分类的部分。使用这个开发的工具,参与者的音频文件被自动转录,每个句子被自动标记为其所属的特定子测试,如WMS, WAIS, WAIS‐R, BNT, FAS, CDT, DEMO或OTHER。图1演示了从原始语音记录中提取此类结构化数据的自动化管道。
图1 原始语音转换为结构化数据的自动化管道
该队列包括166名MCI患者,其中90人在6年内进展为AD痴呆(进行性MCI), 76人保持MCI(稳定型MCI)。阿尔茨海默病包括阿尔茨海默病合并卒中、阿尔茨海默病无卒中和混合性痴呆(血管性+阿尔茨海默病)。在6年的随访期间,MCI患者到AD的平均时间为2.7年。表1给出了参与者的特征,包括自我报告的性别、教育状况、年龄统计,以及三种APOE基因(ε2/ε3/ε4)的六种可能组合。该表格表明,受教育程度较低的老年妇女和携带一个或两个APOE ε4等位基因副本的妇女更有可能发展为阿尔茨海默病。这一发现与先前的研究一致,强调年龄是阿尔茨海默病最重要的风险因素。随着个体年龄的增长,阿尔茨海默病的患病率显著增加,估计75至84岁的人群患病率为19%,80至85岁的人群患病率为30%至35%。此外,研究表明,遗传一个APOE ε4基因型的人患AD的风险更高,而遗传两个APOE ε4基因型的人患AD的风险更高。值得注意的是,在进展性轻度认知损伤组中,女性的平均年龄比男性大1.4岁,这表明女性可能由于寿命更长而更容易进展。
表1 6年内保持轻度认知障碍或进展为AD的轻度认知障碍患者的特征
模型构建
我们从成绩单的缩写版本或一个特定子测试的内容中生成基于深度学习的嵌入向量。这导致与每个子测试相关的八个嵌入向量,以及来自一个转录本的简化版本的多个嵌入向量。然后,我们在与一个子测试内容相关的定量数据上训练逻辑回归模型,得到八个不同的训练模型和八个子测试分数。然而,代表子测试的八个分数经历了使用性能误差分析的特征选择过程。每个成绩单的多个缩短版本的嵌入被视为独立的输入,并对所有这些嵌入进行一个逻辑回归模型的训练,从而为一个成绩单生成多个分数。虽然在嵌入过程中,转录本的缩写版本是独立处理的,但我们取逻辑回归分数的平均值来创建转录本平均分(TAS)。最后,我们将TAS分数与选定的子测试分数一起输入到一个集成逻辑回归模型中,以最终预测MCI个体在6年内转化为AD的可能性。图2说明了预测过程。通过数据增强整合随机缩写和子测试特定嵌入,我们的方法显著提高了模型的数据解释和准确性。这包括从不同的成绩单版本生成TAS分数,以及子测试评估来改进我们的预测过程。该策略丰富了我们模型的数据表示和预测准确性,同时利用了广泛和详细的记录洞察力。
图2 从神经心理学测试访谈中预测阿尔茨海默病的自动化管道
表2给出了逻辑回归模型的平均性能指标,包括每个指标的95%置信区间。该表根据AUC按降序排序,首先列出最高值。第一行展示了模型的性能,包括文本、人口统计、APOE和健康因素,实现了78.5%的AUC和79.9%的F1分数,标志着观察到的最高有效性。接下来的两行突出显示了利用文本特性以及易于获得的人口统计数据(如年龄、性别和教育程度)的模型。表的第四行报告了使用人口统计学特征将APOE数据添加到模型中的性能,其AUC和F1得分分别为71.7%和75.7%。此外,我们训练了一个仅以人口统计特征作为输入的模型,其AUC为68.8%,如第6行所示。
表2 模型用不同特征进行MCI到AD进展的测试集上平均性能指标
图3显示了使用文本特征和人口统计模型输出的逻辑回归模型的系数。通过z分数归一化(通过减去平均值并除以标准差)对连续变量的结果进行了调整,使系数具有可比性。该图表示了不同特征的逻辑回归系数分布,突出了它们在模型预测过程中的相对重要性。通过比较TAS和选定子检验的系数的四分位数范围和中位数与人口统计学特征,我们可以观察到它们的贡献的差异。TAS和子检验的中位数越高,意味着这些变量具有更强的预测价值,强调了它们在影响模型预测方面的作用大于人口因素。
图3 使用文本特征和人口统计模型输出的逻辑回归模型的系数
注:人口统计包括年龄、性别和教育程度。BNT,波士顿命名测验;CDT,时钟绘制测试;DEMO,部分访谈涉及人口统计信息;OTHER,相似性测试;TAS,成绩单平均分;WAIS,韦氏成人智力量表。
我们的模型使用语音数据生成的特征,以及年龄、性别和教育水平,在预测6年内MCI到AD的进展方面达到了78.5%的准确率和81.1%的灵敏度。所提出的方法提供了一个完全自动化的过程,为MCI到AD的进展预测提供了一个廉价、广泛使用、易于管理的筛选工具,促进了远程评估的发展。
Amini S, Hao B, Yang J, Karjadi C, Kolachalama VB, Au R, Paschalidis IC. Prediction of Alzheimer's disease progression within 6 years using speech: A novel approach leveraging language models. Alzheimers Dement. 2024 Aug;20(8):5262-5270.