(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210957668.X
(22)申请日 2022.08.10
(71)申请人 深圳市网联安瑞网络科技有限公司
地址 518000 广东省深圳市福田区华 富街
道新田社区深南大道1006号深圳国际
创新中心(福田科技广场)C栋二十二
层
(72)发明人 李志鹏 石珺 刘汪洋 沈宜
(74)专利代理 机构 广东普润知识产权代理有限
公司 44804
专利代理师 寇闯
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 21/62(2013.01)
(54)发明名称
领域实体与事件双中心知识图谱构建方法、
系统及设备
(57)摘要
本发明属于数据挖掘与识别技术领域, 公开
了领域实体与事件双中心知识图谱构建方法、 系
统及设备, 知识图谱构建结合以实体为中心和以
事件为中心, 描绘现实事件中的实体、 实体属性、
实体关系等静态信息, 还可 以表达事件属性、 事
件关系等动态信息。 设计一种新型的四元组数据
结构, 实现知识图谱中数据的来源追踪, 可支撑
数据访问控制、 隐私保护和许可证管理等实际应
用。 设计一种新型的衍生图计算模块, 支持对知
识图谱数据聚合、 统计、 关联和变换等运算, 同时
支撑图嵌入、 机器学习模型等智 能计算, 并将运
算后的数据保存在图存储引擎当中, 加快知 识图
谱查询和检索本发明提升了知识图谱的细粒度
访问控制、 隐私保护和数据管理能力。
权利要求书2页 说明书10页 附图4页
CN 115269877 A
2022.11.01
CN 115269877 A
1.一种面向海量多源异构数据聚合分析的领域实体与事件双中心知识图谱构建方法,
其特征在于, 所述面向海量多源异构数据聚合分析的领域实体与事件双中心知识图谱构建
方法包括:
S1, 以实体和事件同时作为本体构建中心的领域事件知识图谱, 对现实事件中的实体、
实体属性、 实体关系的静态信息进行表示, 以及对事件属 性, 事件与实体、 事件与事件关系
动态信息进行表示;
S2, 配置海量多源异构数据输入, 通过输入数据库名称、 数据库类型、 数据库地址、 用户
名和密码信息配置结构化数据输入, 通过指 定文件地址、 API接口的方式配置非结构化数据
和半结构化数据输入;
S3, 按照数据类型, 结合步骤S1构建的领域事件知识图谱, 分别以实体为中心, 以事件
为中心, 对数据进 行清洗、 抽取、 转换和装载; 所述数据包括结构化数据、 非结构化数据和半
结构化数据;
S4, 对处理完的领域事 件知识图谱数据按照知识 表示格式进行生成;
S5, 将经过统一知识表示后的数据结构存入关系型数据库、 图数据库、 键值数据库、 数
据仓库不同类型 数据库;
S6, 对步骤S4领域事件知识图谱数据 聚合、 统计、 关联和变换运算, 以及将融合后的结
果存回知识存 储引擎;
S7, 面向多样化的业 务应用。
2.根据权利要求1所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建方法, 其特征在于, 在步骤S1中, 将每条知识定义为四元组形式, 包括: 主体
subject, 谓语predicate, 客体object, 来源provenance, 其中主体subject, 谓语
predicate, 客体object为传统的知识三元组表达, 其中来源provenance是新增元素, 用于
标识数据来源。
3.根据权利要求1所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建方法, 其特征在于, 在步骤S3中, 对数据进行清洗、 抽取、 转换和装载中, 对于结
构化数据进 行数据映射, 将关系型数据库 表与实体、 事件的本体定义进 行映射, 得到知识 三
元组, 将关系型 数据表的来源作为数据来源字段, 得到四元组形式。
4.根据权利要求1所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建方法, 其特征在于, 在步骤S3中, 对 数据进行清洗、 抽取、 转换和装 载中, 对文本、
图片、 视频、 音频非结构化和半结构化数据分类分别进行处理, 处理过程包括: 对文本类数
据使用自然语言处理算法进行实体抽取、 事件抽取, 抽取人物、 时间、 地点、 组织实体信息,
抽取人物与人物, 人物与 组织实体关系和属性信息, 抽取事件参与者、 事件关联关系, 包括
事件与事件关系, 事件与人物关系, 对图片类数据进行OCR识别, 然后转化为文本类数据处
理, 对视频类数据抽取视频关键帧图片, 然后转化为图片 类数据进 行处理, 对音频类数据进
行文字转写, 转 化成文本类数据。
5.根据权利要求2所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建方法, 其特征在于, 将四元组形式表示的主体subject, 谓语predicate, 客体
object, 来源p rovenanc e进行序列化, 生成JSON ‑LD/RDFa/MC F/Turtle/N ‑Triples多种知 识
序列化表示。权 利 要 求 书 1/2 页
2
CN 115269877 A
26.根据权利要求4所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建方法, 其特征在于, 对时间序列类数据, 进 行数据按周/月/年进 行聚合和统计计
算, 对于需要进行语义理解的数据, 运用机器学习、 深度学习方法进 行语义关联和实体消歧
计算, 对数据进行变换和关联, 并将融合后的结果存回知识存 储引擎。
7.一种实现如权利要求1 ‑6任意一项所述面向海量多源异构数据聚合分析的领域实体
与事件双中心知识图谱构建方法的构建系统, 其特征在于, 该面向海量多源异构数据聚合
分析的领域实体与事 件双中心知识图谱构建系统包括:
本体设计模块(1), 用于构建知识图谱的概念层模型, 通过人工参与和机器辅助的方
式, 实现人机结合的本体半自动化构建;
数据映射模块(2), 通过结合本体设计模块(1)中定义的本体知识进行结构化数据的映
射;
信息抽取模块(3), 针对非结构化、 本结构化数据, 提供可配置、 可扩展的信息抽取算
法, 包括以实体为中心的抽取算法和以事 件为中心的抽取算法;
知识融合模块(4), 对数据映射模块和信 息抽取模块输出的数据, 在领域事件知识本体
统一表示下, 进行多源知识融合;
知识更新模块(5), 用于保障不断迭代更新领域事件知识图谱的内容, 随着时间推移,
新知识不断产生;
图存储引擎(6), 为领域事件本体和领域事件知识图谱提供存储, 包括关系型数据库、
图数据库、 键值数据库、 数据仓库、 日志数据库;
衍生图计算模块(7), 对知识图谱数据聚合、 统计、 关联和变换运算, 并将运算后的数据
保存在图存 储引擎当中;
图查询服 务模块(8)为领域应用提供多样化的查询接口;
图谱可视化引擎(9)基于图查询服 务为领域应用提供 可视化功能。
8.根据权利要求7所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知
识图谱构建系统, 其特 征在于,
所述本体设计模块(1)的输出为领域事件本体, 领域事件本体定义领域事件知识图谱
的概念层, 结合以实体为中心的本体和以事件为中心的本体, 对领域事件知识图谱描述的
实体、 实体属性、 实体关系 、 事件属性、 事 件关系进行规约;
所述知识融合模块(4)同时支持自定义个性化的知识融合方法, 同于提供本体对齐和
实体消歧后结果。
9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和处理器, 所述存储器存
储有计算机程序, 所述计算机程序被所述处理器执行时, 使得所述处理器执行权利要求 1‑6
任意一项所述的面向海量多源异构数据聚合分析的领域实体与事件双中心知识图谱构建
方法。
10.一种计算机可读存储介质, 存储有计算机程序, 所述计算机程序被处理器执行时,
使得所述处理器执行权利要求 1‑6任意一项所述的面向海量多源异构数据聚合分析的领域
实体与事 件双中心知识图谱构建方法。权 利 要 求 书 2/2 页
3
CN 115269877 A
3
专利 领域实体与事件双中心知识图谱构建方法、系统及设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:38上传分享