【综述专栏】时态知识图谱的推理研究综述

发布者:梁刚健发布时间:2023-06-19浏览次数:119

原文链接:https://mp.weixin.qq.com/s/u-IMoBtUCmVwnUHRfXYOFg

人工智能前沿讲习 



链接:http://cjc.ict.ac.cn/online/onlinepaper/syh-202363223309.pdf随着社交网络、物端感知等技术快速发展,网络空间中涌现了大量的交互、话题、事件、新闻等数据,蕴含大量动态演化、强时效性的知识.较于忽略知识中时间信息的传统知识图谱,时态知识图谱通过建模知识的时效性以描述动态变化的现实世界,为时间紧耦合的应用提供有效支持.然而,时态知识图谱无法确保涵盖全量知识,知识的缺失严重影响应用性能,需要推理模型自动挖掘新的知识,以解释事物的历史状态,预测未来发展趋势并描述演化规律.由于实际应用的迫切需要,近年来,时态知识图谱的推理研究工作层出不穷,逐渐引起学术界和工业界的广泛关注.本文对近年来时态知识图谱的推理工作进行全面介绍和总结.首先,介绍了时态知识图谱的推理相关概念与问题描述;其次,介绍了面向补全任务的推理模型与面向预测任务的推理模型,对其进行比较分析;之后总结了时态知识图谱推理的数据集、推理任务、相关指标以及应用场景;最后展望时态知识图谱推理的未来研究趋势.综上,本文致力于为时态知识图谱的推理领域研究人员提供具有价值的参考,以推动该领域进一步发展.


1. 引言


时态知识图谱[1] 由 Leblay等人于2018年提出,是一种在传统知识 图谱中引入时间信息的知识图谱.传统知识图谱由 谷歌于2012年提出,使用节点和边描述真实世界中 实体之间的关联,用于提高搜索引擎性能;由于知识 图谱具有强大的语义表达与推理分析能力,当前,知识图谱早已超越搜索引擎,赋能更广泛的智能应用, 被认为是人工智能技术从感知智能跨向认知智能的 重要阶梯.然而,传统知识图谱一般用于描述静态的 常识知识,较少考虑知识的时间信息,无法管理网络 空间中涌 现 的 大 量 动 态 演 化、具 有 时 间 信 息 的 知 识[2],即时态知识;难以应 用于时间紧耦合的应用中,如股票市场预测、政治事 件预测、疫情传染链溯源等.时态知识图谱考虑了知 识中的时间信息,有效管理动态演化的时态知识,并 为时间紧耦合的应用提供支持.


知识推理的目标是基于预定义规则或自动学习 推理规则,通过已知知识推断未知知识.知识推理是 时态知识图谱不可或缺的功能,体现在以下两点:首 先,时态知识图谱无法涵盖全量知识,而知识的缺失 严重影响下游应用性能,如基于知识库的问答系 统无法回 应 答 案 并 不 在 知 识 库 中 的 问 句,需 要 推 理模型自动挖掘缺失的知识;其次,下游应用需要预 测未来将要发生的事件,如电商软件中推荐系统[5] 为用户推荐未来可能购买的商品,医疗辅助决策系 统[6]结合病人历史临床数据,判断疾病未来发展趋 势等. 时态知识图谱推理研究时态知识如何以复杂的动态规律和 逻辑规则相互影响和变化.考虑到时态知识仅在固 定的时间点或时间区间内成立,以及时态知识持续 涌现并不断演化,较于传统的知识图谱推理工作,其 在学习结构信息与语义信息之外,需要建模知识中 的时间信息,考虑知识的时效性,以解释事物的历史 状态,预测未来发展趋势并描述演化规律,具有巨大 应用价值.例如面向刑事侦查的推理模型分析涉案 团伙成员在犯罪前后的行为以补全隐含线索,挖掘 潜在的团伙成员;面向政治预测的推理模型依据政 要人物历史行为建模其政治倾向性,依此预测该政 要法案投票结果;面向风险评估的推理模型通过建 模涵盖供应链、资金链、担保链数据的时态知识图 谱,学习风险在企业与金融机构中传播模式,以识别 系统性重大风险,评估其带来的影响.自时态知识图 谱概念提出后,由于实际应用的迫切需要,近年来,时 态知识图谱的推理研究工作层出不穷.其中 CIKM、 EMNLP、WSDM、SIGIR、TKDE 等数据挖掘、自然 语言处理与信息检索领域的国际顶级会议与期刊都 刊出了相关工作,推动该研究领域快速发展.


时态知识图谱的推理研究工作是知识图谱领域 当前的学术研究与工业应用热点,然而截至目前,未有针对该专题的综述性工作.已有综述文献[711] 总结了面向传统知识图谱的推理方法,但仅将其作 为未来有潜力的发展方向简单展望,缺少对时态知 识图谱推理工作的全面分析与总结.综述文献[12] 以动态图表示学习中编码解码器的视角简单探讨 了部分时态知识图谱表示方法,但未专门从时态知 识图谱推理专题的分类体系与应用出发,探究研究 工作之间的关联;综述文献[13-14]介绍了时态知识 图谱补全方法及其进展,但未涉及时态知识图谱的 预测方法;综述文献[15]将时态知识图谱视作新一 代知识图谱关键技术中的一部分,并作简要介绍,但 涵盖工作不全面,未构建分类体系且未涉及模型之 间性能比较. 本文致力于为对时态知识图谱推理方向感兴趣 的研究人员提供参考,全面介绍该领域发展现状,以 推动该领域的进一步发展.本文贡献包括:首先,系 统地整理了时态知识图谱推理方向相关的研究工 作,理清了其他综述中未提及的相关定义与任务描 述;其次,充分调研了截至2022年7月之前的时态 知识图谱推理工作,基于此提出系统的方法分类体 系,从补全与预测的角度全面地总结了时态知识图 谱的推理工作最新研究进展;进一步地,本文对各类 时态知识图谱推理任务涉及的数据集、评价指标、实 验结果与应用场景进行论述与总结,弥补了当前时 态知识图谱推理专题综述的空白.




本文在第2节中介绍预备知识,包括概念定义 与任务描述;第3节将时态知识图谱推理工作分为 面向补全与面向预测的时态知识图谱推理方法两大 类,在此基础上系统归纳已有的时态知识图谱推理 研究工作,并比较其共性与特性;第4节介绍并分析 时态知识图谱推理任务对应的数据集、相应任务的 评价指标、模型在不同任务的评测结果以及应用场 景等;最后,第5节讨论时态知识图谱推理面临的挑 战以及有潜力的研究方向.


2. 时态知识图谱的推理方法


从可观测时间域的角度划分,本文将时态知识 图谱推理方法分类为面向补全的时态知识图谱推理 方法与面向预测的时态知识图谱推理方法.前者包 括基于张量分解的推理方法、基于转移表示的推理方 法与基于规则的推理方法;后者包括基于游走路径的 推理方法、基于时序点过程的推理方法、基于序列神 经网络的推理方法与基于增量式更新的推理方法.


2.1 面向补全的时态知识图谱推理方法 


时态知识图谱补全任务的关键是使模型理解已 观测时间域内的时间信息,并将其时间信息整合至 知识图谱中复杂的语义与结构信息中进行推理.面 向补全任务的推理方法通过学习实体在特定时刻的 表示,以补全缺失的知识.基于张量分解的推理方法 从宏观角度 学 习 整 个 图 谱 的 演 化 规 律,通 过 预 定 义的分解方法得到实体、关系与时间的表示;基于 转移表示的推理方法从微观角度学习实体的演化 规律,从时态知识数据中学习得到实体、关系与时 间的表示.基于规则的推理方法通过显式符号表达 推理规则,通过图谱中已有的知识,演绎推理缺失的 知识.表4列举了面向补全任务的时态知识图谱的推 理方法.



2.2  面向预测的时态知识图谱推理方法 


面向预测的时态知识图谱推理方法学习时态知 识图谱历史状态中的单向演化规律以预测未来.从 建模时间单向演化规律的方式区分,可进一步分为 基于游走路径的推理方法、基于时序点过程的推理 方法、基于序列网络模型的推理方法与基于增量式 更新的推理方法.表5对比了面向预测的时态知识 图谱推理方法.