(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211322970.4
(22)申请日 2022.10.27
(71)申请人 华侨大学
地址 362000 福建省泉州市城华北路269号
(72)发明人 王华珍 许泽 何霆 李弼程
(74)专利代理 机构 厦门智慧呈 睿知识产权代理
事务所(普通 合伙) 35222
专利代理师 王玮婷
(51)Int.Cl.
G06F 40/284(2020.01)
G06N 5/02(2006.01)
G06N 20/00(2019.01)
(54)发明名称
事件知识图谱的表示向量的生成方法、 装
置、 设备和介质
(57)摘要
本发明提供事件知识图谱的表示向量的生
成方法、 装置、 设备和介质, 涉及知 识图谱表示向
量学习领域。 生成方法包含S1获取实体的描 述语
句, 采用BERT编码模型进行向量表示, 获取实体
描述向量。 S2获取实体的类型信息, 采用加权层
次编码模型进行向量表示, 获取实体类型向量。
S3获取实体的词向量, 采用Word2vec词向量模型
进行向量表示, 获取实体的实体语义向量。 S4根
据实体描述向量、 实体类型向量和实体语义向
量, 获取实体初始向量。 S5获取实体对之间的所
有多跳关系路径, 通过路径资源约束算法, 获取
关系初始向量。 S6根据实体初始向量和关系初始
向量, 获取三元组集合。 S7根据三元组集合, 采用
transE模型进行表示向量学习, 获取 实体学习表
示向量和关系学习表示向量。
权利要求书3页 说明书13页 附图6页
CN 115510856 A
2022.12.23
CN 115510856 A
1.一种事 件知识图谱的表示向量的生成方法, 其特 征在于, 包 含:
获取实体的描述语句, 并采用BERT编码模型进行向量表示, 获取实体描述向量
获取实体的类型信息, 并采用加权层次编码模型进行向量表示, 获取实体 类型向量
获取实体的词向量, 并采用Word2vec词向量模型进行向量表示, 获取实体的实体语义
向量
根据所述实体描述向量
所述实体类型向量
和所述实体语义向量
进行向量
相乘, 获取事 件知识图谱中各个实体的实体初始向量ve;
获取事件知识图谱中实体对之间的所有多跳关系路径, 并将其表示为组合向量, 通过
路径资源约束算法选出置信度最高的组合向量, 获取事件知识图谱中各个实体之 间的关系
初始向量vr;
根据所述实体初始向量ve和所述关系初始向量vr, 获取事件知识图谱的三元组集 合;
根据所述三元组集合, 采用transE模型对事件知识图谱进行表示向量学习, 获取事件
知识图谱的实体学习表示向量ve′和关系学习表示向量vr′。
2.根据权利要求1所述的事件知识图谱的表示向量的生成方法, 其特征在于, 获取实体
的描述语句, 并采用BERT编码模型进行向量表示, 获取实体描述向量
具体包括:
获取实体e的描述文本数据Textd; 其中, Textd={T1,T2,…,Ti,…,Tm}, 式中, Ti表示描述
文本数据中的第i个句子、 m为描述文本数据的句子总数;
将所述描述文本数据Textd送入BERT模型中训练, 获取句向量集合{S1,S2,…,Si,…,
Sm}, 式中, Si表示第i个句子的句向量, m为句向量的总数;
根据所述句向量集合, 获取所述实体描述向量
其中,
式中, Si表
示第i个句子的句向量, m为句向量的总数。
3.根据权利要求1所述的事件知识图谱的表示向量的生成方法, 其特征在于, 获取实体
的类型信息, 并采用加权层次编码模型进行向量表示, 获取实体 类型向量
具体包括:
获取实体的类型信息集 合Ce;
根据所述类型信息集 合, 获取实体的类型映射矩阵Me; 其中,
式中, n表示类 型信息集合Ce中类型的总数、 ci表示类型信息集合Ce中的第i个类 型、 αi是
ci对应的权 重、
是
的投影、
是ci的向量表示;
将所述类型映射矩阵Me中每行元素相加取平均, 获取 所述实体 类型向量
4.根据权利要求1所述的事件知识图谱的表示向量的生成方法, 其特征在于, 获取实体
的词向量, 并采用Word2vec词向量模型进行向量表示, 获取实体的实体语义向量
具体
包括:
获取实体的词向量; 其中, 所述词向量 为one‑hot向量;
根据所述词向量, 获取实体的上 下文词向量序列;权 利 要 求 书 1/3 页
2
CN 115510856 A
2根据所述上下文词向量序列, 通过Word2vec词向量模型中的CBOW算法对实体进行向量
化表示, 获取 所述实体 语义向量
5.根据权利要求1所述的事件知识图谱的表示向量的生成方法, 其特征在于, 获取事件
知识图谱中实体对之间的所有多跳关系路径信息, 并将其表示为组合向量, 通过路径资源
约束算法选出置信度最高的组合向量, 获取事件知识图谱中各个实体之间的关系初始向量
vr, 具体包括:
获取事件知识图谱中实体对之间的所有 多跳关系路径;
使用加法运算将多跳关系路径中的所有向量表示相加, 获取多跳关系路径的组合向
量;
将所有的多跳关系路径的组合向量作为路径资源约束算法的输入, 输出置信度最高的
组合向量, 将置信度最高的组合向量作为实体对之间的关系初始向量vr; 从而, 获取事件知
识图谱中各个实体之间的关系初始向量vr。
6.根据权利要求1至5任意一项所述的事件知识图谱的表示向量的生成方法, 其特征在
于, 通过最小化t ransE模型的损失函数来优化t ransE模型;
所述transE模型的损失函数为:
L=∑(h, r, t)∈T[L(h, r, t)+L(h, P, t)]
式中, L(h,r,t)是三元组(h,r,t)的损失函数、 T是正确三元组(h,r,t)的集合、 T ′是错
误三元组(h′,r,t′)的集合、 γ是衡量正确三元 组和错误三元组的边界参数、 E(h,r,t)是基
于正确三元组的能量函数、 E(h ′,r,t′)是基于错误三元组的能量函数、 L(h,P,t)是基于关
系路径的损失函数、 Z 是归一化因子、 P(h,t)是实体h和实体t之间的多跳 路径集合、 p是集合
P中的一条路径、 R(p|h,t)为路径置信度、 L(p,r)为单 条关系路径(h,p,t)的损失函数。
7.一种事 件知识图谱的表示向量的生成装置, 其特 征在于, 包 含:
描述向量获取模块, 用于获取实体的描述语句, 并采用BERT编码模型进行向量表示, 获
取实体描述向量
类型向量获取模块, 用于获取实体的类型信息, 并采用加权层次编码模型进行向量表
示, 获取实体 类型向量
语义向量获取模块, 用于获取实体的词向量, 并采用Word2vec词向量模型进行向量表
示, 获取实体的实体 语义向量
实体初始向量获取模块, 用于根据所述实体描述向量
所述实体类型向量
和所
述实体语义向量
进行向量相乘, 获取事 件知识图谱中各个实体的实体初始向量ve;
关系初始向量获取模块, 用于获取事件知识图谱中实体对之间的所有多跳关系路径,
并将其表示为组合向量, 通过路径资源约束算法选出置信度最高的组合向量, 获取事件知权 利 要 求 书 2/3 页
3
CN 115510856 A
3
专利 事件知识图谱的表示向量的生成方法、装置、设备和介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:22上传分享