说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211260909.1 (22)申请日 2022.10.14 (71)申请人 达而观数据 (成 都) 有限公司 地址 610000 四川省成 都市中国 (四川) 自 由贸易试验区成都市天府新区湖畔路 北段366号1栋3楼1号 (72)发明人 吴万杰 白良俊 纪传俊 纪达麒  陈运文  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 李礼 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 一种文本事件抽取方法、 装置、 设备及存储 介质 (57)摘要 本发明公开了一种文本事件抽取方法、 装 置、 设备及存储介质。 包括: 将待测事件文本输入 至预先训练的事件属性识别模型中, 获取与待测 事件文本匹配的目标事件属性; 根据各目标事件 属性, 从问题模板集中筛选出目标问题模板, 并 根据目标问题模板, 构建与待测事件文本匹配的 目标事件问题; 将目标事件问题以及待测事件文 本共同输入至预先训练的关键信息提取模型中, 获取与目标事件问题匹配的目标论元; 将目标事 件问题与目标论元进行组合, 形成与待测事件文 本匹配的事件描述信息。 通过事件属性识别模型 获取与待测事件文本匹配的目标事件属性, 抽取 要素少, 过程简单, 再通过确定目标问题模板结 合关键信息提取模型提取目标论元, 可以准确进 行事件抽取。 权利要求书2页 说明书9页 附图4页 CN 115510212 A 2022.12.23 CN 115510212 A 1.一种文本事 件抽取方法, 其特 征在于, 包括: 将待测事件文本输入至预先训练的事件属性识别模型中, 获取与所述待测事件文本匹 配的至少一个目标事 件属性; 根据各所述目标事件属性, 从问题模板集中筛选出目标问题模板, 并根据所述目标问 题模板, 构建与所述待测事 件文本匹配的目标事 件问题; 将所述目标事件问题以及所述待测事件文本共同输入至预先训练的关键信息提取模 型中, 获取与所述目标事 件问题匹配的目标论元; 将所述目标事件问题与所述目标论元进行组合, 形成与 所述待测事件文本匹配的事件 描述信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述目标事件属性包括: 与待测事件文本 匹配的目标事 件类型、 目标触发词和目标论元角色。 3.根据权利要求2所述的方法, 其特征在于, 根据各所述目标事件属性, 从问题模板集 中筛选出目标问题模板, 并根据所述 目标问题模板, 构建与所述待测事件文本匹配的目标 事件问题, 包括: 根据目标事 件类型, 从问题模板集中筛 选出目标问题模板; 其中, 所述问题模板集中存储有问题模板与事件类型之间的映射关系, 每个问题模板 中包含用于填充触发词和论元角色的空白项; 将所述目标触发词和目标论元角色对应填充至所述目标问题模板的各空白项中, 构建 得到所述目标事 件问题。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 在将所述待测事件文本输入至预 先训练的实体识别模型中之前, 还 包括: 获取标注事件文本集, 其中, 每个标注事件文本中预先标注有多个事件属性标签; 其 中, 所述事 件属性标签包括: 第一类标签和第二类标签; 根据各标注事件文本的第一类标签, 对预设的实体识别模型进行训练, 得到所述事件 属性识别模型; 根据每个标注事件文本的第 一类标签, 从问题模板集中筛选出与每个标注事件文本分 别对应的标注问题模板, 并根据各所述标注问题模板, 构建与每个标注事件文本分别对应 的标注事 件问题; 根据与各标注事件文本分别对应的标注事件问题和第 二分类标签, 对预设的机器阅读 理解模型进行训练, 得到所述关键信息提取模型。 5.根据权利要求4所述的方法, 其特征在于, 所述第一类标签包括事件类型标签、 触发 词标签和论元角色标签; 所述第二类标签包括 论元标签。 6.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述问题模板集中的问题模板包 括下述至少一项: 论元角色类、 包 含触发词的问题类以及包 含论元角色的问题类。 7.根据权利要求4或5所述的方法, 其特征在于, 在模型训练过程中, 采用最小化实体识 别模型与机器阅读理解模型的损失函数之和的方式, 实现对事件属性识别模型和关键信息 提取模型的共同训练。 8.一种文本事 件抽取装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115510212 A 2目标事件属性获取模块, 用于将待测事件文本输入至预先训练的事件属性识别模型 中, 获取与所述待测事 件文本匹配的至少一个目标事 件属性; 目标事件问题构建模块, 用于根据各所述目标事件属性, 从问题模板集中筛选出目标 问题模板, 并根据所述目标问题模板, 构建与所述待测事 件文本匹配的目标事 件问题; 目标论元获取模块, 用于将所述目标事件问题以及所述待测事件文本共同输入至预先 训练的关键信息提取模型中, 获取与所述目标事 件问题匹配的目标论元; 事件描述信息生成模块, 用于将所述目标事件问题与所述目标论元进行组合, 形成与 所述待测事 件文本匹配的事 件描述信息 。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 方法。 10.一种计算机存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115510212 A 3

.PDF文档 专利 一种文本事件抽取方法、装置、设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本事件抽取方法、装置、设备及存储介质 第 1 页 专利 一种文本事件抽取方法、装置、设备及存储介质 第 2 页 专利 一种文本事件抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:11:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。