软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。

基于注意力机制的阿尔茨海默病患者语音检测探讨

日期:2025年12月27日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:13
论文价格:150元/篇 论文编号:lw202512201414312897 论文字数:32512 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文,本文研究了基于注意力机制的阿尔茨海默病(AD)患者语音检测方法,重点探讨了如何从声学信号中提取有效特征,并结合不同的注意力机制,构建更为精准的AD语音检测模型。

第1章 绪论

1.1 研究背景

1.1.1 医疗大健康背景

人工智能技术目前在医疗大健康方面应用受到社会关注,目前在世界范围内,相关智能技术作为缓解医疗压力,提供辅助性诊疗方法的新技术备受瞩目。我国十四五规划中提出,要推动人工智能在医疗领域的应用,加速智慧医疗发展。目前随着人工智能技术,其在大健康领域的应用范围越发广泛。在癌症诊断领域,有研究者通过深度学习模型对乳腺癌CT图像进行检测[1-3],Hussain等人通过构建22层的CNN对胸部X光进行了COVID-19的检测[4],并在样本中取得了99.1%的二类分类准确率及91.6%的四类分类率。在医疗图像分割领域,Zhao等人[5]通过全卷积神经网络(FCNNs)结合条件随机场(CRFs)的框架对脑肿瘤图像进行了分割。在大健康领域中,虽然人工智能相关理论和应用已经取得了许多进展,但人工智能在大健康领域仍有许多挑战,同时,聚焦于社会上的应用,疾病的智能检测及病理研究是当前研究者所关注的。在大健康领域相关研究中,有关于阿尔茨海默病的智能诊断方法是当前一个很重要的问题。

阿尔茨海默病(Alzheimer’s Disease, AD)是威胁全球老年人群健康的首要神经退行性疾病。根据世界卫生组织(WHO)2023年统计数据,全球AD患者已超过5500万,预计2050年将增至1.39亿,相关医疗支出高达1.3万亿美元。目前临床诊断主要依赖脑脊液检测和MRI成像,存在侵入性强、成本高(单次检测费用超5000元)且难以普及等问题。随着人工智能技术的快速发展,基于语音的AD无创筛查成为研究热点。患者早期语言障碍表现为语速减缓、词汇重复、语义混乱等特征,为语音分析提供了病理学依据。

1.2 国内外研究现状

1.2.1 基于传统机器学习方法的AD检测

早期AD检测任务中,受限于技术方法限制,人为设计的特征数据集使用最为广泛。其中数据集主要包含了语音信号分析的一些统计性质特征,研究者更倾向于从统计角度进行分析。传统的机器学习方法在早期检测中扮演了一个重要角色。

基于传统机器学习方法的AD检测,研究者主要基于自行设计的可统计信息以及声学特性等特征结合传统机器学习方法。如Mirzaei等人[13]使用三种分类模型:最近邻(KNN)、支持向量机(SVM)和决策树(DT)对 AD、轻度认知障碍(MCI)和正常受试者(HCs)进行分类,。Weiner 等人开发了一个用于分类的线性判别分析(LDA)模型,并实现了 85.7% 的分类准确率[14]。Hernandez等人[15]训练 SVM 和随机森林(RF)来区分正常状态(HCs)和中等阿尔茨海默病患者(MCI),结果显示了SVM和RF分类器在MCI早期诊断中的有效性。在 Edwards 等人的研究中[16],综合使用了五种不同的分类模型,分别为LDA、KNN、DT、RF 和 SVM来探索多尺度(单词和音素级别)特征的有效性,实现79.2%的最大分类准确率。2021年Xue等人[17]使用LSTM和CNN对社区所提供的医学录音数据进行了相关实验。研究者通过模型对录音数据来源于正常人或是患者进行了鉴别分类,录音数据包含轻度患者和正常人。文中结果显示,LSTM准确率为73.4%,而CNN准确率为74.6%。这说明了模型通过语音对于患者鉴别有一定检测能力,但效果仍然需要提升。

第2章 相关基础理论与数据集介绍

2.1 实验数据集

2.1.1 数据源介绍

AD语音检测领域数据集是研究人员通过招募患有和未患有AD的参与者,并使用各种方法(包括神经心理学测试和自然对话等形式)收集录音而获得的。其中神经心理学测试[28-29]包括但不限于以下测试:

(1)图片描述测试:图片描述测试包括向受试者展示一张图片,并要求他们在规定的时间内对所描绘的场景提供详细描述。

(2)言语流畅性测试:动物类别测试,在言语流畅性评估中,参与者会被给定一个特定类别,通常与动物相关(例如,狗、猫、鱼),并被要求在时间限制内尽可能多地说出不同的单词。

(3)波士顿命名测试(BNT):BNT主要用于评估临床神经心理学中语言障碍程度的命名能力。一种典型的形式包括 60 张从易到难排序的图片,受试者被要求说出它们的名称。

(4)逻辑记忆测试:逻辑记忆测试对于检测相对轻微的回忆问题特别有用,包括单词列表学习、延迟回忆、识别和构造性运用。在这些选定的测试过程中,会记录自发语音数据。其中一些随后会被手动转录。

目前,该领域中已有几个标准化的公开数据集发布,能用于从自发语音中自动检测 AD,这使得研究人员能够便捷的开展 AD 检测研究。下一小节中将介绍一系列常用的数据集,包括它们各自的数据集名称、口语语言、模态和参与者信息。这些数据集是根据公开可用性以及在自动 AD 检测实验中的广泛使用这一标准挑选出来的。

2.2  AD语音检测相关理论

在AD语音检测场景中,重点除了模型算法性能优劣对比以及流程的优化问题外,另外的研究重点也在于特征选择这部分。研究场景拓展到语音学分析的相关研究,特征选择这一步中有许多不同类型的特征供研究者选择与使用,如何选择最适用的特征以及对应算法是一个重要的研究问题。对于从语音中所提取的特征主要可分为三种类别:声学特征,语言特征,其他形式特征等。多种类别的特征对应多种不同类别的算法模型,同时目前的研究中多特征融合也是一种研究趋势,本文首先从最广泛以及早期使用的声学特征开始进行介绍。

2.2.1 声学特征AD检测概述

阿尔茨海默病(AD)会使患者产生生理和认知变化,进而导致声学特征改变。一方面,影响言语肌肉协调控制,造成发音、音域、节奏变化,体现于 MFCC、抖动、闪烁等特征;另一方面,认知衰退影响言语产生,体现于语速、停顿、音质及与语言相关的声学特征。近期研究将用于AD检测的声学特征分为帧级特征、嵌入特征和副语言特征(韵律、不流畅性、情感特征)。下面对梅尔谱图和手工特征集两种声学特征形式进行介绍:

代写软件工程硕士论文语谱图

第3章 基于金字塔注意力的多尺度变换检测 ......................... 22

3.1基于MFCC的传统语音识别方法概述 .......................... 22

3.2 基于尺度变换方法的AD检测算法设计 ............................. 23

第4章 基于注意力机制的特征融合AD检测 ............. 39

4.1特征融合方法相关理论概述 ................................. 39

4.2基于特征融合的AD检测算法设计 ........................ 41

第5章 工作总结与展望 .............................. 54

5.1工作总结 .......................... 54

5.2工作展望 ............................ 54

第4章 基于注意力机制的特征融合AD检测

4.1特征融合方法相关理论概述

特征融合可以综合多种不同类型形式数据的信息,为机器学习模型的决策提供更多、 更全面的信息,提高模型的性能。目前AD检测领域中,特征融合方法应用广泛,可分为数据层融合,特征层融合,决策层融合等方法。受相关方法启发,本节综合使用了多种融合方式在不同层上进行特征融合,综合提高了模型的检测性能。

4.1.1数据层融合

数据层融合是最基础的特征融合方式,同时也是近年来众多领域研究较多且应用较为广泛的融合技术。作为最基础的特征融合方式,数据层融合主要通过直接处理原始输入数据(如去噪、数据增强等预处理),采用数据合并或频域变换技术,最大程度保留原始信息,充分实现多源数据的互补性。相较于单一数据类型,其融合后的特征包含更丰富的判别信息,且因技术成熟度高,成为当前研究最广泛的信息融合方法。但应用中需对不同时空来源的原始数据进行同步处理,导致计算复杂度高、实时性受限;此外,数据间的严格配准要求(如时空对齐、格式统一等融合要求)进一步增加了技术实现难度。在本节中,为了充分利用数据层融合信息,本节将对经过处理的特征进行直接拼接的融合以降低融合计算复杂度。

4.1.1特征层融合

特征层融合是多模态数据处理中的一种重要技术,旨在通过结合不同模态或不同层次的特征信息,提升模型的表达能力和泛化性能。在特征层融合中,来自不同模态或不同层次的特征首先通过各自的特征提取模块进行处理,得到具有代表性的特征表示。这些特征表示可以是来自不同传感器的数据(如图像、语音、文本等),也可以是同一数据在不同层次上的抽象表示(如浅层特征和深层特征)。特征层融合的核心思想是通过某种机制将这些特征表示进行有效结合,从而捕捉不同模态或层次之间的互补信息。

代写软件工程硕士论文检测模型图

第5章 工作总结与展望

5.1工作总结

本文研究了基于注意力机制的阿尔茨海默病(AD)患者语音检测方法,重点探讨了如何从声学信号中提取有效特征,并结合不同的注意力机制,构建更为精准的AD语音检测模型。研究的主要工作如下:

(1)特征尺度变换与金字塔注意力机制结合的AD语音检测:本文通过融合MFCC特征、多尺度变换和注意力机制,显著提升了AD语音检测任务的性能。通过实验验证,本方法在英语和中文数据集上的准确率分别达到了80.2%和91.2%。此外,跨语言测试(希腊语)的实验结果也证明了该方法在多语言场景下的良好适应性。

(2)小波变换与CA机制的特征融合模型:为进一步增强模型对多模态信息的学习能力,本文引入了小波变换对语音信号