1 引言

知识图谱的系统工程观  catia 第1张

  

  1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。

  

知识图谱的系统工程观  catia 第2张

  1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是客观世界中的实体,而超链接也被增加了语义描述,具体标明实体之间的关系。

  

  

  

  

  g5dAQYrw5wLdmgGO.jpg (44.23 KB, 下载次数: 23)

  下载附件

  2019-2-26 16:01 上传

知识图谱的系统工程观  catia 第3张

  

  尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。

  

知识图谱的系统工程观  catia 第4张

  知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面的技术,而知识图谱的应用则涉及到语义搜索、智能问答、语言理解、决策分析等多个领域。构建并利用好知识图谱需要系统性的利用好涉及知识表示、数据库、自然语言处理、机器学习等多个方面技术。

  

  

  

  

  O2dMj2qdoo77aYyu.jpg (22.93 KB, 下载次数: 25)

  下载附件

  2019-2-26 16:01 上传

  

知识图谱的系统工程观  catia 第5张

  

  图 1 知识图谱:事物关系的可计算模型

  

  2 从信息系统工程的观点看知识图谱

  

  2.1 知识图谱的规模化发展

  

  知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。

  

  

  

  

  CB7u1B5b2NUob25d.jpg (34.86 KB, 下载次数: 24)

  下载附件

  2019-2-26 16:01 上传

  

  图 2从语义网络到知识图谱

  

  在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。

  

  

  

  

  I6rirs9Fgs8222f9.jpg (72.84 KB, 下载次数: 24)

  下载附件

  2019-2-26 16:01 上传

  

  图 3 现代知识图谱的规模化发展

  

  2.2 规模化的知识图谱系统工程

  

  规模化的知识图谱工程要求系统性的综合多方面的技术手段。如图 4所示,知识图谱工程的核心流程包括:知识建模、知识检索、知识分析等核心环节。一般的技术流程包括:首先确定知识表示模型,然后根据数据来源选择不同的知识获取手段导入知识,接下来需要综合利用知识推理、知识融合、知识挖掘等技术对所构建的知识图谱进行质量提升,最后根据场景需求设计不同的知识访问与呈现方法。下面简要概述这些技术流程的核心技术要素。

  

  

  

  

  EgQqq0MXpQqKz3kK.jpg (47.44 KB, 下载次数: 26)

  下载附件

  2019-2-26 16:01 上传

  

  

  

  图 4 规模化的知识图谱系统工程

  

  ● 知识来源

  

  可以从多种来源来获取知识图谱数据,这包括:文本、结构化数据库、多媒体数据、传感器数据和人工众包等。每一种数据源的知识化都需要综合各种不同的技术手段。 例如,对于文本数据源就需要综合各种自然语言处理技术(实体识别、实体链接、关系抽取、事件抽取等)来实现从文本中抽取知识。

  

  结构化数据库如各种关系型数据库,也是最常使用的数据来源之一。 通常已有的结构化数据库不能直接作为知识图谱使用,而需要通过定义结构化数据到本体模型之间的语义映射,再通过编写语义翻译工具来实现结构化数据到知识图谱的转化。

  

  语义技术也被用来对传感器所产生的数据进行语义化。这包括对物联设备进行抽象,定义符合语义标准的数据接口;对传感数据进行语义封装和对传感数据增加上下文语义描述等。

  

  ● 知识检索与知识分析

  

  基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答。传统搜索引擎依靠网页之间的超链接来实现网页的搜索,而语义搜索是直接对事物进行搜索,如人物、机构、地点等。这些事物可能来自于文本、图片、视频、音频、IoT设备等各种信息资源。而知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索。

  

  知识图谱和语义技术也被用来辅助做数据分析与决策。例如,大数据公司PLANTIR基于本体融合和集成多种来源的数据,通过知识图谱和语义技术增强数据之间的关联,使得用户可以用更加直观的图谱方式对数据进行关联挖掘与分析。

  

  3 发展趋势与展望

  

  3.1 知识图谱的系统工程思维

  

  知识图谱本身可以看做是一种新型的信息系统基础设施。从数据维度,知识图谱要求用更加规范的语义来提升企业数据的质量,用链接数据(Linked Data)的思想提升企业数据之间的关联度,终极目标是将非结构、无显示关联的粗糙数据逐步萃取提炼为结构化、高度关联的高质量知识。每个企业都应该将知识图谱作为一种面向数据的信息系统基础设施进行持续性建设。

  

  从技术维度,知识图谱的构建涉及知识表示、关系抽取、图数据存储、数据融合、推理补全等多方面的技术,而知识图谱的利用涉及语义搜索、知识问答、自动推理、知识驱动的语言及视觉理解、描述性数据分析等多个方面。要构建并利用好知识图谱也要求系统性的综合利用好来自于知识表示、自然语言处理、机器学习、图数据库、多媒体处理等多个相关领域的技术,而非单个领域的单一技术。因此,未来一个发展趋势是,知识图谱的构建和利用都应注重系统思维。

  

  3.2大规模的知识图谱嵌入与基于表示学习的可微分推理

  

  知识图谱对规模的扩展需求使得知识表示技术逐渐发生了多方面的变化:1)从以强逻辑为中心向以按需增强语义表达能力的变化;2)从较为注重TBox概念型知识转化为更加注重ABox事实型知识;3)从以离散的符号逻辑表示向以连续的向量空间表示方向发展。

  

  尽管以连续向量表示为基础的知识图谱嵌入日益得到重视,但其在实际应用过程中却仍然面临较大的困难。这包括:A. 极大规模的知识图谱嵌入的训练及向量化知识图谱的存储计算问题;B.嵌入过程带来的信息丢失问题及少样本数据训练不充分的问题。对于问题A,要求更多的考虑结合数据库技术及大数据存储技术来解决大规模知识图谱带来的性能问题,而非单一的考虑参数的规模。对于问题B,则需要考虑更多的叠加逻辑规则和先验知识来引导知识图谱嵌入的训练过程。

  

  3.3少样本、无监督的知识获取

  

  知识图谱的规模化构建需求对知识获取带来如下几个方面的变化:1)从单一人工获取到更多的依靠大数据和机器学习来实现自动化知识抽取;2)从单一来源变化为综合从结构化、半结构化、文本、传感器等多个来源,通过多任务相融合实现联合知识获取;3)从依靠少数专家到依靠互联网群体众包协同获取。

  

  大规模对自动化知识获取提出了更高的要求。未来主要发展趋势包括:1) 融合深度学习与远程监督,降低自动化抽取对特征工程和监督数据的依赖;2)通过强化学习降低抽取的的噪音,减少对标注数据的依赖;3) 融合多种类型的数据通过多任务学习进行联合知识抽取;4) 有机的结合人工众包提高知识抽取的质量和加强监督信号。

  

  3.4区块链与去中心化的知识图谱

  

  语义网的早期理念实际上包含三个方面:知识的互联、去中心化的架构和知识的可信。知识图谱在一定程度上实现了“知识互联”的理念,然而在去中心化的架构和知识可信两个方面都仍然没有较好的解决方案出现。

  

  知识的可信与鉴真也是当前很多知识图谱项目所面临的挑战和问题。由于很多知识图谱数据来源广泛,且知识的可信度量需要作用到实体和事实级别,怎样有效的对知识图谱中的海量事实进行管理、追踪和鉴真,也成为区块链技术在知识图谱领域的一个重要应用方向。

  

  4 结束语

  

  互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。

  

  迅策科技|内容选自《中国计算机学会》