A Survey on Knowledge Graphs Representation, Acquisition and Applications

Abstract

包含
- 知识图谱表现学习【knowledge graph representation learning】
- 知识获取和补全【knowledge acquisition and completion】
- 时态图谱【temporal knowledge graph】
- 知识感知应用【knowledge-aware applications】
知识图嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。
对知识获取，特别是知识图谱的补全，嵌入方法、路径推理和逻辑规则推理进行了综述。
进一步探讨了元关系学习、常识推理和时序知识图谱

1. Introduction

知识图是事实的结构化表示，由实体、关系和语义描述组成。
- 实体可以是现实世界的对象和抽象概念
- 关系表示实体之间的关联
- 实体及其关系的语义描述包含定义良好的类型和属性
  - 属性图或性质图被广泛使用，其中节点和关系具有属性或性质
知识图谱与知识库同义。当考虑图结构时，知识图谱是一个图，当涉及到形式语义时，可以作为解释和推断事实的知识库。
近年来，基于知识图谱的研究主要集中在知识表示学习(KRL)和知识图谱嵌入(KGE)两个方面。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系提取。知识感知模型得益于异构信息、丰富的知识表示本体和语义以及多语言知识的集成。因此，许多现实世界的应用，如推荐系统和问题回答已经具备常识性的理解和推理能力。微软的Satori和谷歌的Knowledge Graph
为了对现有的文献进行全面的综述，本文重点研究了知识表示，它为知识获取和知识感知应用提供了更加上下文化、智能化和语义化的知识表示方法。本文所做贡献如下
- 全面性综述。我们对知识图谱的起源和现代知识图谱的关系学习技术进行了全面的综述。介绍和比较了知识图谱表示、学习和推理的主要神经网络结构。此外，我们还提供了不同领域中许多应用的完整概述。
- 全视图分类和新的分类法。对知识图谱的研究进行了全面的分类，并提出了精细的分类方法。具体来说，在高层次上，我们从KRL、知识获取和知识感知应用三个方面对知识图谱进行了回顾。对于KRL方法，我们进一步将细粒度分类法分为四个视图，包括表示空间、评分函数、编码模型和辅助信息。在知识获取方面，将知识获取分为基于嵌入的排序、关系路径推理、逻辑规则推理和元关系学习；实体关系获取任务分为实体识别、类型识别、消除歧义和对齐；并根据神经范式对关系抽取进行了讨论。
- 对新进展的广泛综述。本文提供了广泛的新兴主题，包括基于transformer的知识编码、基于图神经网络(GNN)的知识传播、基于路径推理的强化学习和元关系学习。
- 总结和展望
论文其余部分组织如下：
- 首先，知识图谱的概述，包括历史、符号、定义和分类，在第2节中给出;
- 然后，我们在第三节从四个范围讨论KRL;
- 接下来，我们将回顾第4节和第5节中知识获取和时间知识图谱的任务;下游应用介绍在第6节;
- 最后，讨论了未来的研究方向，并得出结论。其他信息，包括KRL模型训练和一组知识图谱数据集以及开源实现，可以在附录中找到。

2. 概述

2.1 知识库简史

自从2012年谷歌搜索引擎首次提出知识图谱概念以来，知识图谱得到了极大的普及。

2.2 定义和符号

将知识图谱定义为\(G=\{E,R,F\}\)。其中\(E、R、F\)分别表示实体、关系和事实的集合。一个事实记作一个三元组\(A\) \(triple(h,r,t)∈F\)
两个定义
- 定义1 (Ehrlinger和Woß[35])。知识图谱获取信息并将其集成到本体中，应用推理引擎获得新知识。
- 定义2 (Wang et al.[158])。知识图谱是由实体和关系构成的多关系图，实体和关系分别被视为节点和不同类型的边。
下表列出了具体的符号表示及其描述。附录B解释了几种数学运算的细节。

2.3 知识图研究的分类

本综述对知识图谱的研究，即KRL、知识获取、下游知识感知应用等方面进行了全面的文献综述，整合了许多最新的先进深度学习技术。研究的总体分类如下图所示。
知识表示学习(Knowledge Representation Learning, KRL)是后续的基础。我们将KRL分为表示空间、评分函数、编码类型和辅助信息四个方面，为开发KRL模型提供了清晰的工作流程。具体内容包括：
1. 关系和实体所表示的表示空间
2. 度量事实三元组似然性的评分函数
3. 用于表示和学习关系交互的编码模型
4. 嵌入方法所集成的辅助信息
- 表示学习包括点向空间、流形、复向量空间、高斯分布和离散空间
- 评价指标一般分为基于距离的评分函数和基于相似度匹配的评分函数
- 目前研究主要集中在编码模型，包括线性/双线性模型，因式分解和神经网络。
- 辅助信息包括文本信息、视觉信息和类型信息
知识获取任务分为三类：KGC、关系提取和实体发现。
- 第一个用于扩展现有的知识图谱，而其他两个用于从文本中发现新知识(即关系和实体)。知识图谱补全(KGC)主要分为以下几类：基于嵌入的排序、关系路径推理、基于规则的推理和元关系学习。
- 实体发现包括识别、消除歧义、类型化和对齐
- 关系提取模型知识图谱补全利用了注意力机制、图卷积网络、对抗性训练、强化学习、深度残差学习和迁移学习。
时序知识图谱包含了表示学习的时态信息。本研究将时间嵌入、实体动态、时序关系依赖、时序逻辑推理四个研究领域进行了分类。
知识感知应用包括自然语言理解(NLU)、问题回答、推荐系统和各种真实世界的任务，这些应用程序注入知识以改进表示学习。

2.4 相关综述论文

以往关于知识图谱的综述论文主要集中在统计相关学习[112]、知识图谱精细化[117]、中文知识图谱构建[166]、KGE[158]或KRL[87]。后两项综述与我们的工作关系更大。
Lin等[87]以线性的方式提出KRL，着重于定量分析。Wang等人[158]根据评分函数对KRL进行分类，并特别关注KRL中使用的信息类型。它仅从评分度量的角度提供了当前研究的一般视角。
我们的综述深入到KRL，并提供了一个完整的视图，它来自四个方面，包括表示空间、评分函数、编码模型和辅助信息。此外，本文还对知识获取和知识感知应用进行了全面的综述，讨论了基于知识图谱的推理和小样本学习等几个新兴的主题。

3. 知识表示学习

KRL在文献中也被称为KGE、多关系学习和统计关系学习。本节介绍在分布式表示学习丰富的语义信息的实体和关系形成4个范围的最新进展，包括表示空间(表示实体和关系,3.1节), 评分函数(度量事实的合理性,3.2节),编码模型(模型的语义交互事实,3.3节),和辅助信息(利用外部信息,3.4节)。我们还在第3.5节中提供了一个摘要。KRL模型的训练策略在附录D中进行了回顾。

3.1 表示空间

表示学习的关键是学习低维分布式嵌入的实体和关系

以下依次是实值点向空间(包括向量空间、矩阵空间和张量空间)、复平面空间、高斯空间、流形空间

嵌入空间应遵循三个条件，即评分函数的可微性、计算可能性和可定义性。

TODO p4

3.2 评分函数

用于度量事实的可信度，在基于能量的学习框架中也称为能量函数。能量学习的目的是学习能量函数。
基于能量的学习目标学习能量函数\(E_{\theta}(x)\)(被将\(x\)视为输入的\(\theta\)参数化)，以确保正样本分数高于负样本。本文采用评分函数的形式进行统一。
评分函数有两种典型类型，即基于距离的和基于相似性的函数(如下图a, b)，用于度量事实的合理性。
- 基于距离的评分函数通过计算实体之间的距离来衡量事实的合理度，其中使用较多的是关系为\(h+r≈t\)的翻译函数
- 基于语义相似度的评分方法是通过语义匹配来衡量事实的合理性，通常采用乘法公式，即\(h^TM_r≈t^T\)，转换头尾部附近的实体表示空间。
- 下图即为以TransE[10]和DistMult[185]为例的基于距离和基于相似匹配的评分函数示意图。
  
  TODO p5

3.3 编码模型

本节介绍通过特定的模型体系结构(包括线性/双线性模型、因子分解模型和神经网络)对实体和关系的交互进行编码的模型。线性模型通过将头部实体投射到接近尾部实体的表示空间中，将关系表示为线性/双线性映射。因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。神经网络用非线性神经激活和更复杂的网络结构来编码关系数据。几个神经模型如图5所示。

TODO p6【图不全】
图5: 神经编码模型示意图。(a) MLP[33]和(b) CNN[110]将三元组数据输入到稠密层和卷积运算中学习语义表示，(c) GCN[132]作为知识图谱的编码器，产生实体和关系嵌入。(d) RSN[50]对实体关系序列进行编码，有区别地跳跃关系。

3.4 嵌入辅助信息

为了促进更有效的知识表示，多模态嵌入将诸如文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来。

TODO p8

3.5 总结

知识表示学习是知识图谱研究领域的一个重要课题。本节回顾了KRL的四方面，其中最近的几种方法总结在表II中，更多的方法在附录c中。总的来说，开发一个新的KRL模型是为了回答以下四个问题:1)选择哪个表示空间; 2)如何测量特定空间中三元组的合理度; 3)采用何种编码模型对关系交互进行建模; 4)是否利用辅助信息。
最常用的表示空间是基于欧几里德点的空间，它通过在向量空间中嵌入实体，并通过向量、矩阵或张量对相互作用进行建模。研究了复向量空间、高斯分布、流形空间和群等表示空间。流形空间相对于点向欧几里德空间的优点是松弛点向嵌入。高斯嵌入能够表达实体和关系的不确定性，以及多重关系语义。在复杂向量空间中嵌入可以有效地建模不同的关系连接模式，特别是对称/反对称模式。表示空间在实体语义信息的编码和关系属性的获取中起着重要的作用。在建立表示学习模型时，应仔细选择和设计合适的表示空间，以匹配编码方法的性质，平衡表达性和计算复杂度。基于距离度量的评分函数采用了翻译原则，而语义匹配评分函数采用了组合运算符。编码模型，尤其是神经网络，在实体和关系的交互建模中起着至关重要的作用。双线性模型也引起了广泛的关注，一些张量因子分解也可以看作是这一类。其他方法包括文本描述、关系/实体类型和实体图像的辅助信息。
图TODO p9

4. 知识获取

知识获取的目的是从非结构化文本中构造知识图谱，补全已有的知识图，发现和识别实体和关系。
知识获取的主要任务包括关系提取、KGC和其他面向实体的获取任务，如实体识别和实体对齐。大多数方法分别制定KGC和关系提取。然而，这两个任务也可以集成到一个统一的框架中。
Han等人[57]提出了一种知识图谱与文本数据融合的联合学习框架，实现了知识图谱与文本的数据融合，解决了文本的KGC和关系提取问题。与知识获取相关的任务还有三元组分类、关系分类等。
在这一部分中，我们将对知识获取技术的三个方面进行全面的回顾，即知识图谱补全、实体发现技术和关系提取技术。

4.1 知识图谱补全

基于知识图谱不完备性的特点【即知识图谱中的关系缺失或者属性缺失，如人物的教育，工作，住址，关系等信息缺失，这可能是原始数据本身不完备，也可能是抽取算法无法识别等原因导致。】，提出了一种新的知识图谱三元组生成方法。典型的子任务包括链路预测、实体预测和关系预测。这里给出了一个面向任务的定义。给定一个不完全知识图谱\(G=(E,R,F)\)，KGC的目的是推断缺失的三元组\(T=\{(h,r,t)|(h,r,t)\notin F\}\)。
对KGC的初步研究主要集中在学习低纬度嵌入进行三元组预测。在本次综述中，我们将这些方法成为基于嵌入的方法。然而，它们中的大多数都没有捕捉到多步关系。因此，最近的工作转向探索多步骤的关系路径和合并逻辑规则，分别称为关系路径推理和基于规则的推理。三元组分类是KGC的一个相关任务，它评估了一个事实三元组分类的正确性，本节还会对此进行讨论。

TODO p9

4.2 实体的发现

本节将基于实体的知识获取分为几个细分的任务，即实体识别、实体消歧、实体类型和实体对齐。我们将它们称为实体发现，因为它们都在不同的设置下探索实体相关知识。

TODO p11

4.3 关系提取

关系提取是从纯文本中抽取未知关系事实加入到知识图谱中，是自动构建大规模知识图谱的关键。
由于缺乏标记的关系数据，远距离监督[25](也称为弱监督或自我监督)使用启发式匹配来创建训练数据，假设包含相同实体提及的句子在关系数据库的监督下可以表达相同的关系
Mintz等人[103]利用文本特征(包括词汇和句法特征、命名实体标记和连接特征)对关系分类进行远程监控。传统的方法高度依赖于特征工程[103]，最近的一种方法探索了特征之间的内在相关性[123]。深度神经网络正在改变知识图谱和文本的表示学习。本节回顾了神经关系提取(NRE)方法的最新进展，概述如图9所示。

TODO p12

4.4 总结

这一部分回顾了不完全知识图谱的知识补全和纯文本的知识获取。知识图谱补全完成了现有实体之间缺失的连接，或者推断出给定实体和关系查询的实体。
Embedding
- 基于嵌入的KGC方法通常依赖于三元组表示学习来捕获语义，并对完成的候选排序。基于嵌入的推理仍然停留在个体关系层面，由于忽略了知识图谱的符号性，缺乏可解释性，使得复杂推理能力较差。
- 符号学与嵌入相结合的混合方法结合了基于规则的推理，克服了知识图谱的稀疏性，提高了嵌入的质量，促使有效的规则注入，并引入了可解释的规则。从知识图谱的图形性质出发，研究了路径搜索和神经路径表示学习，但它们在大规模图上遍历时存在连通性不足的问题。
- 元关系学习的新方向是学习在低资源环境下对未知关系提取的快速适应使用
实体发现
- 实体发现从文本中获取面向实体的知识，将知识融合到知识图谱中。以序列对序列的方式探讨实体识别，实体类标讨论有噪声的类型标签和零样本，实体消歧和对齐学习统一嵌入的迭代对齐模型，解决有限数量的对齐种子样本问题。但是，如果新对齐的实体性能较差，则可能会面临错误积累问题。近年来，针对语言的知识越来越多，跨语言知识对齐的研究应运而生。
关系抽取
- 关系抽取在距离监督的假设下存在噪声模式，尤其是在不同领域的文本语料库中。因此，弱监督关系提取对于减轻噪声标记的影响是很重要的，例如，以句子包为输入的多实例学习，软选择超过实例的注意机制[90]以减少噪声模式，以及基于rl的方法将实例选择描述为硬决策。另一个原则是学习尽可能丰富的表示。由于深度神经网络可以解决传统特征提取方法中的误差传播问题，因此该领域以基于DNN的模型为主，如表四所示

5. 时序知识图

当前的知识图谱研究多集中在静态知识图上，事实不随时间变化，而对知识图谱的时间动态研究较少。然而，时间信息是非常重要的，因为结构化的知识只在一个特定的时期内存在，而事实的演变遵循一个时间序列。最近的研究开始将时间信息引入到KRL和KGC中，与之前的静态知识图相比，这被称为时序知识图。同时对时间嵌入和关系嵌入进行了研究。

TODO p14

6. 知识图谱嵌入应用

6.1 自然语言理解

知识感知NLU将结构化的知识注入到统一的语义空间中，增强了语言表示。近年来，知识驱动的发展利用了显性事实知识和隐性语言表示，并探索了许多NLU任务。Chen等人[22]提出了两个知识图谱上的双图随机游动，即提出了一个基于槽的语义知识图谱和一个基于词的词汇知识图谱，以考虑口语理解中的槽间关系。Wang等[156]通过加权的词-概念嵌入，将基于知识概念化的短文本表示学习加以扩充。Peng等[118]整合外部知识库，构建用于社会短文本事件分类的异构信息图。
语言建模是一项基本的NLP任务，它根据给定的顺序预测前面的单词。传统的语言建模方法没有利用文本语料库中经常出现的实体来挖掘事实知识。如何将知识整合到语言表达中，越来越受到人们的关注。知识图谱语言模型(Knowledge graph language model, KGLM)[96]学习通过选择和复制实体来呈现知识。ERNIE-Tsinghua[205]通过聚合的预训练和随机掩蔽来融合信息实体。BERT-MK[62]对图上下文知识进行编码，主要关注医学语料库。ERNIE- baidu[142]引入了命名实体掩蔽和短语掩蔽来将知识整合到语言模型中，ERNIE 2.0[143]通过持续的多任务学习对其进行了进一步的改进。Petroni等[119]对语言模型的大规模训练和知识图谱的查询进行了反思，对语言模型和知识库进行了分析，发现通过预训练语言模型可以获得一定的事实知识。

6.2 问答

基于知识图谱的问答(KG-QA)利用知识图谱中的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案，也有一些方法对常识推理进行符号知识注入。

6.3 推荐系统

基于用户历史信息的协同过滤是推荐系统研究的热点。然而，它往往不能解决稀疏性问题和冷启动问题。将知识图谱作为外部信息进行集成，使推荐系统具有常识性推理能力。
通过注入基于知识图谱的边侧信息(如实体、关系和属性)，许多人致力于基于嵌入的正则化以改进推荐。协同CKE[195]通过翻译KGE模型和堆叠的自动编码器联合训练KGEs、物品的文本信息和视觉内容。DKN[154]注意到时间敏感和主题敏感的新闻文章是由压缩的实体和常识组成的，它通过一个知识感知CNN模型将知识图谱与多通道的单词实体对齐的文本输入合并在一起。然而，DKN不能以端到端方式进行训练，因为实体嵌入需要提前学习。为了实现端到端训练，MKR[155]通过共享潜在特征和建模高阶项-实体交互，将多任务知识图谱表示和推荐关联起来。其他文献考虑知识图谱的关系路径和结构，而KPRN[160]将用户与项目之间的交互视为知识图谱中的实体-关系路径，并利用LSTM对该路径进行偏好推理，获取顺序依赖关系。PGPR[170]在基于知识图谱的用户-物品交互的基础上，实现了增强策略引导的路径推理。KGAT[159]将图注意网络应用于实体-关系和用户-物品图的协作知识图谱上，通过嵌入传播和基于注意的聚合对高阶连通性进行编码。