一种面向道路交通法学领域的概念体系自动构建方法 - 工程硕士论文

本文是一篇工程硕士论文，本文针对概念体系自动构建方法中的领域概念抽取任务和领域概念关系检测任务，进行了多方面的研究。

第一章绪论

1.1研究背景

2012年谷歌首次推出知识图谱（Knowledge Graph）的概念，并将其用于搜索引擎中1，满足用户的全方位搜索需求。知识图谱是一种特殊的语义数据库，它的前身是一种叫语义网的知识库，该知识库为有向图结构，其中图的节点代表实体或者概念，边代表节点之间的各种语义关系。它有效整合了不同数据源的知识，并采用有向图的数据表示模型，将知识的表达结构化。国内的搜索引擎比如百度和搜狗，也都根据自己的业务场景构建相应的知识图谱，包括百度的“百度知心2”和搜狗的“知立方3”等。

知识图谱并不是本体的替换品，相反，它是在本体的基础上进行的扩充和丰富4。本体是一种形式化的，对于共享概念体系的明确而又详细的说明5，其包含了概念以及概念之间的关联关系，描述了知识图谱的模式（Schema）。知识图谱则在本体的基础上，增加了丰富的相关实体信息。现有的知识图谱大多为通用知识图谱，包括前文所述的一些知识图谱，协同处理的百科网站上包含的相关知识库（例如Wikipedia6、百度百科7等），从百科数据中抽取结构化数据构建的中文通用知识图谱Zhishi.me[1]，以及知识工厂构建的中文概念图谱CN-Probase[2]等等。相对而言，领域知识图谱比较少，尤其是法学领域。2016年，中国最高人民法院首次提出建设立足于时代发展前沿的“智慧法院”。同一年，“智慧法院”建设被纳入《国家信息化发展战略纲要》8《“十三五”国家信息化规划》9。在这样的形势下，构建法学领域的知识图谱是建设“智慧法院”的有效辅助手段，可以用于简化判决文书、文书生成系统和问答系统等，具有重要价值。构建领域知识图谱的前提是构建其模式，而领域概念抽取以及关系抽取是构建领域知识图谱模式的关键因素。因此，领域概念抽取以及关系抽取的效果，直接影响了领域知识图谱的质量。

1.2国内外研究现状

概念体系的构建流程中，针对领域概念抽取阶段，现有的主流方法包括基于无监督的方法和基于有监督的方法。其中，基于无监督的领域概念抽取方法主要包括基于规则的方法和基于统计的方法，如词频-逆文档频率（TF-IDF）等。这些方法一般包含两个步骤，第一步是采用字典或者句法信息等获取候选的领域概念集合，第二步是根据特定的规则或者统计信息进行候选集合的过滤[4]。基于有监督的方法一般采用机器学习模型，使用大量的标注数据来训练模型，使模型能够自动习得分类的特征[5]。针对关系检测阶段，现有的主流方法包括基于模板的方法和基于深度学习的方法。其中，基于模板的方法通过手动或者自动构建的句法模板来进行关系检测任务，基于深度学习的方法主要通过一些神经网络模型，在大量标注数据集上来训练模型的分类能力[6]。

1.2.1基于无监督的领域概念抽取

基于无监督的领域概念抽取旨在通过特定的步骤，从给定语料库中，提取领域相关的一组简洁的关键词，并且这些关键词能够捕获领域概念[4]。一般分为两步，第一步提取文本中候选的领域概念，第二步对候选领域概念实施过滤从而获取领域概念集合。

在提取文本中的候选领域概念环节，一般的预处理方法包括去停用词，词性还原以及分词等。一些候选概念提取的方法依赖于基于窗口的方法，Felices等人[7]提取n-grams窗口内的短语。Conde等人[8]则应用词性标注，然后使用浅层句法模式来提取例如名词短语，以及形容词为前缀的名词短语等。

第二章相关知识介绍

2.1概念体系

本文所涉及的概念体系是领域本体的一部分，是构建领域本体的一个重要环节。领域本体是一种专业性本体，提供了领域概念词表及其关系。此外，领域本体也是一个领域知识库，包含了非常丰富的语义信息[40]。因此，领域本体能够反应领域知识的概况，为领域知识图谱的构建打好基础，并为领域信息检索和分类提供有力支持。

本文所涉及的研究对象包括领域概念，概念间的上下位关系和概念属性关系，如图2-1所示，这些属于概念体系的范畴，是领域本体的一部分，后者还包括领域术语，概念间的其它关系等。这些研究对象都以文本的形式进行描述，例如领域概念：机动车辆，小轿车，交通工具等；概念间的上下位关系：<小轿车，机动车辆>，<机动车辆，交通工具>等；概念属性关系：<机动车辆，分类>，<机动车辆，小型汽车>等。下面对这三个研究对象进行简单介绍。

工程硕士论文怎么写

2.2概念体系的自动构建

2.2.1基于流水线的概念体系构建方法

基于流水线的方法（Pipeline）是指在概念抽取已经完成的基础上再进行概念之间关系的识别。刚开始的方法主要有卷积神经网络（Convolutional NeuralNetworks，CNNs）和循环神经网络（Recurrent Neural Networks，RNNs）。CNNs使用多种卷积核能有效识别目标对象的结构特征，RNNs能够捕获长距离单词之间的依赖关系，能够有效识别序列对象。随着深度学习技术的不断发展，诞生了多种CNNs和RNNs方法的变体，例如长短期记忆网络（Long Short-TermMemory，LSTM）、双向长短期记忆网络（Bidirectional Long Short-Term Memory，Bi-LSTM）、Transformer等，这些方法进一步推动了基于流水线方法的发展。随着预训练语言模型（Pre-trained Language Models，PLMs）得到越来越多的关注和研究，PLMs技术逐渐发展成为自然语言处理领域不可或缺的主流技术，这些方法包括BERT[48]、GPT-3[49]等。PLMs使用大规模的语料来训练语言模型，使其获得了强大的能力，并在下游相关任务上取得了出色的效果。

2.2.2基于联合学习的概念体系构建方法

基于联合学习的方法是指通过基于参数共享、序列标注等方法，将概念抽取和关系识别合并为一个任务，即采用联合的方式进行学习[40]。基于参数共享的方法旨在通过共享编码层在训练过程中产生的参数，最终得到最佳全局参数。共享编码层可以采用LSTM等模型。基于序列标注的方法采用了端到端的神经网络模型，能够有效减少基于共享参数方法产生的信息冗余问题，提高抽取的召回率和准确率。该方法需要大量的标注数据，人工成本较高。总体而言，基于联合学习的方法可以更好地捕获概念与关系之间的相互作用，并且有助于减轻错误传播的问题。虽然联合学习的方法是现在的主流方法，但Zhong等人[50]采用了流水线的方法，在最近的关系识别任务当中，取得了最先进的效果。

第三章基于浅句法信息的领域概念抽取方法.................19

3.1本章概述...................19

3.2任务定义......................20

第四章基于预训练语言模型的概念关系检测方法..............29

4.1本章概述....................29

4.2任务定义...............30

第五章实验评估..........................37

5.1实验准备.......................37

5.1.1数据集.......................37

5.1.2评估指标.....................39

第五章实验评估

5.1实验准备

本节主要介绍实验的准备环节。首先介绍本文构建的数据集，随后介绍各个方法对应的评估指标，最后介绍实验运行的各项环境配置，以及模型的超参数配置。

5.1.1数据集

因为本文所研究的课题没有公开的数据集，所以本文自行构建了1套数据集，用于验证本文方法的可行性和有效性。

语料库的构建方面，本文从六个法学网站上，采用关键字检索的方式，提取了道路交通相关的文本文档，其统计信息如表5-1所示。

工程硕士论文参考

目前有多个开放的中文知识库，如CN-DBpedia，CN-Probase等。其中，CN-DBpedia包含3千多万条中文实体属性对，并且提供开放的API访问接口，用于获取数据。CN-Probase中包含了1500多万个中文实体，270多万个概念以及3200多万对isA关系，该知识库也提供了在线访问的API，在获得授权的情况下可以大规模访问。以“机动车辆”为例，其对应CN-DBpedia中的概念属性对为：<机动车辆，小型汽车>、<机动车辆，分类>、<机动车辆，中文名>、<机动车辆，专用机车>、<机动车辆，CATEGORY_ZH>等。其对应CN-Probase中的上下位关系对为：<机动车辆，交通工具>等。

第六章总结与展望

6.1工作总结

随着互联网的快速发展和迅速普及，网络中数据的规模逐步扩大，如何准确高效的从海量互联网数据中获取人们关注的信息成为挑战。自然语言处理技术可以帮助人们应对这个挑战，概念体系构建作为自然语言处理技术的一项重要任务，在构建知识图谱的模式中，发挥了重要的作用，因此也越来越受到科研人员和商业公司的重视，尤其是领域概念体系。对概念体系自动构建方法的研究，虽然目前有很多可供参考的研究成果，但是当前的研究都还处于比较初级的阶段，仍然有非常多待解决的困难挑战，因此展开概念体系自动构建方法的相关研究有着重要的价值和广泛的应用前景。

本文针对概念体系自动构建方法中的领域概念抽取任务和领域概念关系检测任务，进行了多方面的研究，主要工作如下：

(1)提出了一种基于浅句法信息的领域概念抽取方法。该方法通过候选短语评估模块，采用n-grams模型从文本语料库中抽取候选短语集合，然后根据互信息，KL散度和词频-逆文档频率（