面向评论文本的情感分析方法与优化研究 - 工程硕士论文

本文是一篇工程硕士论文，本文提出了 TCB-LSTM 模型，该模型结合上文和下文的双向信息，同时采用加性软注意力机制调节单词的重要性分布，并且采用多通道融合来获取全面的单词表示。通过对比实验显示，该模型的实验效果得到明显的提升。

第一章绪论

1.1 研究背景及意义随着互联网的发展与普及，截止 2020 年 12 月，我国网民数量达到 9.89 亿，互联网普及率达 70.4%，与 2020 年 3 月相比提升了 5.9 个百分点。与此同时，我国已经连续 8 年成为世界上最大的网络零售市场，并且有延续的趋势。2020 年，我国网购零售额达 11.76 万亿元，同比提高 10.9%。其中，实物商品网上零售额 9.76 万亿元，占社会消费品零售总额的 24.9%。截至 2020 年 12 月，我国网络购物用户数量达 7.82 亿，与 2020 年 3 月相比增长了 7215 万，占网民整体的 79.1%[1]。正是由于网购用户群体规模的不断扩大，使得用户类型更加多元化。同时随着互联网的普及以及网络销售额的提升，消费者发表服务评价和商品评论等信息都有了便捷的渠道。从消费者角度来看，消费者可以发表消费体验供其他消费者参考，同时也可以在购买商品前浏览其他顾客对此商品的评价，并以此来指导自己的购买决策。从企业角度来看，消费者的评价指出了产品的缺陷并指明了市场需求的方向，这有利于商家对产品做出改进，提升服务质量，推动企业进步，行业发展。产品自身是静态的，源源不断的消费者评论却能与时俱进的为产品提供动态的护城河。因此，无论是对消费者还是企业，面向评论文本的情感分析研究是有巨大价值的，这是一个互利双赢的课题。

在当今时代中，网络评论成为现代网民表达意见、感受观点的主要载体，在各种社交传播媒体中也占有着非常重要的比重。多数的网络评论呈现出网民对某个事件、现象或者某个产品的情感状态。然而，某一个产品的网络评论的数量可能会达到几十万条甚至更多，若采用人工去识别情感倾向虽然会有较好的效果，但是会产生巨大的工作量和高昂的人工成本。同时，由于语言的多样性和语义的不确定性，给情感分析的研究带来了巨大的挑战。

1.2 国内外研究现状

1.2.1 单倾向级情感分析

自 Nasukawa 等人[2]在 2003 年提出情感分析概念以来，许多研究者投入到基于文本的情感分析研究。情感分析或意见挖掘是对文本的主观性倾向进行计算分析。情感分析旨在通过分析大量文档来获取消费者在正面或负面评论、问题和请求中表达的感受，这通常被视为二元或多分类问题。每条评论只表示一个情感倾向的分类任务称为单倾向级情感分析。早期，Hatzivassiloglou等人提出并验证了连体形容词语义方向的限制条件，并以此构建了对数线性回归模型去判定大型语料库中两个连体形容词的情感极性是正面还是负面[3]。后来，研究者们又提出了基于词典和规则的方法。该方法的优缺点在很大程度上取决于手动设计和先验知识。Kaji 等人从日文 HTML的文档集中收集了大量的极性句语料库。核心思想是基于海量数据探索极性句的结构特征，并从获取到的极性句中构建词典[4]。Rao 等人将极性的挖掘任务转化为图中的半监督标签传播问题，并且首次融合了同义词和上位词的关系来改善标签传播结果[5]。另一类用于情感分类的方法是以特征工程为核心的传统机器学习算法。Berger等人提出了一种可用于自动构建最大熵模型的最大似然法，并将它成功应用于上下文敏感度建模和机器翻译等自然语言处理任务[6]。Pang 等人采用支持向量机、朴素贝叶斯和最大熵等方法验证了简单地将情感分类作为基于主题分类（两个“主题”是正面情感和负面情感）的一个特例是不完美的。传统的信息检索和文本分类任务通常将词频视为必不可少的要素，但是他们发现词条的出现要比词条的频率更为重要[7]。Go 等人采用远程监督（Distant Supervision）的学习方法，并且验证了表情符号作为训练数据中的噪声标签对此方法的有效性。同时这种方法用在传统机器学习中也可以有效的提高情感分类的精准度[8]。Moraes 等人较早的将人工神经网络（Artificial Neural Networks，ANN）应用在情感分析领域中，并将其与支持向量机做了实证比较。实验发现，即使一些数据在非平衡的情况下，ANN 产生的结果仍能优于或者持平于支持向量机[9]。

第二章情感分析文本预处理

2.1 分词

中文分词的目标是在保证基本语言法则正确的前提下，将一串字符划分成具有特定语意的有效词。中文与大多数印欧语系不同，它只能通过标点符号来分隔句子和段落，并没有以空格为特征的分词标志。因此，分词就成为了许多自然语言处理的首要工作。中文分词的方法主要包括三大类——基于词典的分词方法、基于统计模型的分词方法和基于序列标注的分词方法。

2.1.1 前向最大匹配和后向最大匹配

前向最大匹配（Forward-Max Matching，FMM）和后向最大匹配（Backward-Max Matching，BMM）是基于词典分词中较为朴素的方法。FMM 是以贪心的方式从一段连续文本的左侧至右侧切分出与词典匹配最长的词[42]。最大切分长度在不同应用场景下的取值不同，它是可以灵活调节的超参。从整体上看，单词的颗粒度越大，所表示的语意越准确，但切分的程度也随之降低。BMM 的分词思想与 FMM 类似，最大的区别在于两者的切分方向是相反的。由于中文的性质，BMM 的分词效果通常优于 FMM。假设最大切分长度分别为 4 和 2，以句子“和平饭店的中餐非常好吃”为例。FMM 和 BMM 的分词过程如表 2.1 至表 2.3 所示。

工程硕士论文怎么写

2.2 数据清洗

数据的质量对模型效果有着直接的影响。在做语料库分析时，通常存在一些影响结果的“脏数据”或噪声数据。因此，数据清洗成了自然语言处理中不可或缺的步骤。数据清洗旨在尽可能的识别和纠正错误数据以减少它们对研究结果的影响。主要的数据清洗环节被总结如下。

• 数据内容清洗：主要包括删除或填写缺失数据、删减重复数据和修改错误数据等。清洗方式可以通过经验推测、取均值或中位数等方式处理。

• 逻辑清洗：主要修正一些去掉逻辑词后具有明显错误的数据。

• 停用词清洗：在文本语料库中，存在一些高频但对语句含义影响较低的字符被称为停用词，例如中文语料的“的”、“了”和“吗”等；英文语料的“a”、“and”和“the”等；一些标点符号。为了能提高搜索速度并且节省空间，通常会在训练模型前将数据中的停用词去除。

• 格式清洗：只有数据格式与模型适配，模型训练才能顺利进行。因此，数据使用前需要将其格式转换成模型所需的格式。

第三章针对单倾向级情感分析的双通道双向 LSTM 模型…………………………….23

3.1 TCB-LSTM 模型 .................................. 23

3.1.1 加性 Soft Attention 模型 ................................... 23

3.1.2 BLSTM 模型 ........................ 25

第四章针对方面级情感分析的多粒度注意力表示模型……………………………….45

4.1 模型架构 ...................................... 45

4.2 任务定义 .................................... 46

4.3 基于方面-上下文的 AOA ................................. 46

第五章总结与展望 ..................... 61

5.1 总结 ............................... 61

5.2 展望 ................................... 62

第四章针对方面级情感分析的多粒度注意力表示模型

4.1 模型架构

基于 ALBERT 的多粒度注意力表示（Multi-Grained Attention Representation with ALBERT，MGAR-ALBERT）的骨架类似于基于 Transformer 编码器的 ALBERT[23]。传统的 ABSA（Aspect-based Sentiment Analysis）主要使用交叉注意力和 LSTM 进行分类，并没有区分上下文中的注意力和方面与上下文之间的注意力。该模型包括两部分：上下文块（Contextual Block）和多头的方面-上下文 AOA（Multi-AC-AOA）。MGAR-ALBERT 的架构如图 4.1 所示。

工程硕士论文参考

第五章总结与展望

5.1 总结

自神经网络兴起以来，自然语言处理的发展就取得的巨大的进展。Nasukawa 等人[2]在 2003 年提出情感分析概念。研究方法从早期的词典分析法到语料库分析法，再到基于神经网络的深度学习。神经网络从感知机到 CNN、RNN 再到具有更深层理解能力的 LSTM 模型。然而，随着信息时代的发展，网络中体现情感倾向的信息量激增，情感分析的发展则需要研究者们持续的深入研究。本文的主要研究内容如下：

（1）单倾向级情感分析

LSTM 具有捕捉长时序信息的能力，但它的输入仅是单时序输入。为了改善多义词表示的学习，本文提出了 TCB-LSTM 模型，该模型结合上文和下文的双向信息，同时采用加性软注意力机制调节单词的重要性分布，并且采用多通道融合来获取全面的单词表示。通过对比实验显示