软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。

基于大语言模型的机器译文质量估计方法

日期:2025年10月30日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:83
论文价格:150元/篇 论文编号:lw202510261505177568 论文字数:28555 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文,本文提出了一种基于大语言模型的机器译文质量估计方法,首先使用大语言模型通过不同的翻译提示为源语言句子生成对应的多样化的翻译,将其作为伪参考译文,结合源语言句子和伪参考译文使用机器译文自动评价模型得到机器译文质量得分;

1 绪

1.1 研究背景与意义

随着全球化进程的加速和跨语言交流的增加,机器翻译的需求日益增长。早期机器翻译是基于语言学规则的方法依赖于人类专家手动编写语法和词典规则,再根据规则进行翻译;随着统计学方法的兴起,机器翻译开始转向更为复杂的基于统计的方法,通过统计学方法学习源语言和目标语言之间的对应关系;近年来,随着深度学习技术的发展,神经网络也被引入到机器翻译领域,神经机器翻译模型能够更好的捕捉语言之间的复杂关系,从而提高机器翻译的质量[1-4]。此外,随着机器翻译在各大互联网企业和研发机构的大力推广下,机器翻译技术进一步成熟,机器翻译的未来前景一片开阔[5-7]。

尽管如今机器翻译技术达到了较高的水平,但不少机器译文仍存在错译、漏译、过译等问题,且无法实时地将翻译质量反馈给使用者,因此,针对不需要参考译文的机器译文质量估计的研究应运而生[8]。机器译文质量估计的主要作用包括[9-10]:

(1)将人工评价结果或机器译文的后编辑工作量作为评价翻译质量的基准,提供一个有实际含义的译文质量指标,使机器翻译的普通用户(主要为仅了解目标语言的用户)可以知晓机器译文的可靠程度,除此之外还能够告知进行后编辑的专业译员在机器译文上后编辑所需要的工作量大小以及摒弃部分质量低劣的机器译文。

(2)译文质量估计方法针对句子级别相关性进行模型优化,因此可以克服利用人工参考译文的机器译文自动评价方法 (Automatic Evaluation of Machine Translation, MTE)[11]在句子级别与人工评价相关性低的不足。

(3)由于机器译文质量估计不需要人工参考译文,因此它能辅助神经翻译模型进行网络权重的自训练,以代替传统的通过开发集(开发集中每个待翻译的句子都有人工参考译文)优化翻译系统网络权重的方法[12]。

1.2 国内外研究现状

机器译文质量估计是在不使用人工参考译文的前提下,自动预测机器译文的翻译质量[13]。研究机器译文质量估计方法对机器译文的后编辑与神经翻译模型的自训练等具有重要意义[14]。早期机器译文质量估计研究大都是基于特征工程与传统机器学习的方法,通过提取描述源语言句子复杂程度与翻译难度的复杂度特征、刻画机器译文流畅程度的流利度特征和刻画机器译文是否完整表达源语言句子含义的忠实度特征等,在人类评价数据的指导下利用支持向量机和随机森林等算法进行拟合训练,学习特征与质量标签之间关系,实现对机器译文的质量估计。随着神经机器翻译的发展,预测器-估计器模型 (Predictor-Estimator)[15]和双语专家 (Bilingual Expert)[16]等方法利用迁移学习,从已使用双语平行语料进行预训练的基于循环神经网络的编码器-解码器模型或Transformer[17]模型中提取描述译文质量的特征,构建循环神经网络预测译文质量。DirectQE[18]和CLQE[19]等利用生成器生成伪译文质量估计训练数据直接训练机器译文质量估计神经网络模型。近年来,预训练语言模型在自然语言处理中取得了极大的进展,基于预训练语言模型的机器译文质量估计方法也逐步发展起来,包括TransQuest[20]和ConRegQE[21]等等,它们利用预训练语言模型BERT[22]、XLM[23]、XLM-R[24]等作为双语编码器,提取更高质量的句子表征,进一步提高了机器译文质量估计的性能。

2 基础理论

2.1 多头注意力机制

利用注意力机制[46]使得模型能够在处理输入序列时有选择性的关注其中的特定部分,而不是一次性处理整个序列,但这种机制本身存在一定的缺陷,即模型在对当前位置信息编码时,会过度关注于自身位置,忽视了全局语境,从而导致有效信息抓取能力的下降。如图 2-1所示,多头注意力机制则可以使模型同时关注到输入序列中不同位置的不同子空间的信息,从而提高了模型的泛化能力以及对复杂模式下有效信息的捕获能力。

软件工程硕士论文怎么写

2.2 预训练语言模型

2.2.1 预训练语言模型BERT

BERT(Bidirectional Encoder Representations from Transformers,BERT)是由Google在2018年提出来的一种预训练语言模型,通过在大规模文本语料上进行无监督的预训练,学习到更为复杂的文本表示,从而更高效地提取文本特征,因此BERT当时在多个数据集上都取得了领先的性能,并成为了许多自然语言处理任务的基础模型和重要工具,如文本分类、命名实体识别以及问答系统等。

与传统的单向语言模型不同,BERT通过整合上下文信息,实现了利用双向文本信息的向量表示,如图 2-2所示,BERT的输入通常由三部分组成:Token Embedding(标记嵌入)、Segment Embedding(段嵌入)和Position Embedding(位置嵌入),其中标记嵌入将输入文本中的每个单词映射到一个高维向量表示;段嵌入用于区分输入中的不同句子或文本片段;位置嵌入则编码了输入中每个单词的位置信息。BERT采用多个Transfomer Encoder并行处理目标词上下文信息,最终生成对应的词向量表征Ti。由于使用自注意力机制,BERT模型能够在编码时同时考虑到输入文本序列中的所有单词,从而能更好的捕获更深层次的语义信息。

BERT模型通过预训练和微调的方式,可以应用于各种自然语言处理任务,不需要针对每个任务设计特定的模型,使得模型的开发和应用更加简单高效。并且由于BERT模型在预训练阶段已经学习到了通用的语言表示,因此具有较强的泛化能力,即使在面对与预训练数据不同领域的任务时,BERT模型也能展现出很好的适应性和通用性。

3 基于大语言模型的机器译文质量估计方法 ...................19

3.1 模型总体思路与架构 .........................19

3.1.1 模型总体思路 ...............................19

3.1.2 模型总体结构 .....................................20

4 端对端的机器译文质量估计方法 ............................33

4.1 模型总体思路与架构 ...................................33

4.1.1 模型总体思路 ..............................33

4.1.2 模型总体架构 .................................34

5 总结与展望 ................................43

5.1 总结 ...................................43

5.2 展望 ................................43

4 端对端的机器译文质量估计方法

4.1 模型总体思路与架构

4.1.1 模型总体思路

当前主流的方法是使用预训练语言模型提取源语言句子与机器译文的质量表征,再将表征向量输入至前馈神经网络中预测机器译文的质量,该方法不能很好的提取句子之间的深度特征,并且存在明显的忠实度偏见问题。

针对上述问题,本章提出了端对端的机器译文质量估计方法,该方法在第三章的基于大语言模型的机器译文质量估计方法的基础上进行了更深层的研究。在第三章中,基于大语言模型的机器译文质量估计方法中使用传统的机器译文自动评价模型来对比由大模型生成的伪参考译文与源语言句子之间的信息,从而得到一个机器译文质量分数;在第四章中,端对端的机器译文质量估计方法将源语言句子、机器译文与参考译文进行对比提取深度特征,然后将深度特征输入至前馈神经网络中得到句子的机器译文质量分数。

软件工程硕士论文参考

5 总结与展望

5.1 总结

机器译文质量估计任务是指仅根据机器翻译系统输出与源语言句子进行比较,得到机器译文的质量分数。目前一些主流的机器译文质量估计模型首先利用预训练语言模型获取机器翻译系统输出和源语言句子的句子级别表征,最后将表征输入至前馈神经网络预测机器翻译输出的质量。

上述这种简单方法仅仅进行了简单的信息提取,存在忠实度偏见问题,即模型会过分关注两个句子的语法及流畅度问题,从而忽略了源语言句子与机器译文之间语义是否一致,即使面对语义完全不相关的句子对,但由于其语句流畅、语法正确,模型也会给出较高的分数。因此本文提出了基于大语言模型的机器译文质量估计方法,该方法使用大语言模型生成伪参考译文,再使用传统机器译文质量估计框架结合机器译文自动评价模型给出最终的质量得分。此外,为了更好的提取源语言句子、机器译文及伪参考译文的深度特征,本文提出了端对端的机器译文质量估计方法,通过对比源语言句子、机器译文及伪参考译文提取深度特征。最后本文通过一系列的实验验证了所提出的方法是有效可行的,能够提高机器翻译质量估计和人工评价的句子级别的相关性。

总的来说,本文进行了如下工作:

(1)使用大语言模型通过不同的翻译提示为源语言句子生成对应的多样化的翻译,将其作为伪参考译文;

(2)使用机器译文自动评价方法结合经典机器译文质量估计框架得到源语言句子、机器译文及伪参考译文分别得到不同的质量分数,再将两个不同分数进行加权融合;

(3)构建端对端的机器译文质量估计模型,将源语言句子、机器译文及伪参考译文统一输入至模型中得到最终的分数。

参考文献(略)