说明:最全专利文库
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210561797.7 (22)申请日 2022.05.23 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 程学旗 郭嘉丰 范意兴 郭建涛 (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 专利代理师 王勇 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多标签序列标注的指代消解方法 (57)摘要 本发明提供一种基于多标签序列标注的指 代消解方法, 包括: S1、 将待处理文本分割成预设 长度且不重合的多个文本片段; S2、 采用预训练 模型对每个文本片段进行编码得到每个字符的 语义表达; S3、 基于每个字符的语义表达分别判 断每个字符是否属于B I E标签; S4、 基于每个字 符对应的标签, 在连续I标签序列中, 基于 预设的 组合策略组合任意的BE标签对应的字符构成短 语, 其中, 连续I标签序列表示一个连续的字符序 列中的每个字符均具有I标签; S5、 计算任意两个 短语之间的相似性得分, 为每个短语 保留与其相 似性得分排名靠前的预设个数的短语作为其前 置候选短语; S6、 采用排序模型将每个短语的前 置候选短语进行排序并将得分第一的前置候选 短语作为 其互指对象。 权利要求书2页 说明书8页 附图1页 CN 114997177 A 2022.09.02 CN 114997177 A 1.一种基于多标签序列标注的指代消解方法, 用于获得待处理文本中每个短语的互指 对象, 其特 征在于, 所述方法包括: S1、 将待处 理文本分割成预设长度且不重合的多个文本片段; S2、 采用预训练模型对每个文本片段进行编码, 以得到每个文本片段中每个字符的语 义表达; S3、 基于步骤S2中获得的每 个字符的语义表达分别判断每 个字符是否属于BIE标签; S4、 基于步骤S3中获得的每个字符对应的标签, 在连续I标签序列中, 基于预设的组合 策略组合任意的BE标签对应的字 符构成短语, 其中, 连续I标签序列表示一个连续的字符序 列中的每 个字符均具有I标签; S5、 计算任意两个短语之间的相似性得分, 为每个短语保留与其相似性得分排名靠前 的预设个数的短语作为 其前置候选短语; S6、 采用排序模型将每个短语的前置候选短语进行排序并将得分第 一的前置候选短语 作为其互指对象。 2.根据权利要求1所述的方法, 其特征在于, 所述预设长度被设置为所述预训练模型支 持的最大长度。 3.根据权利要求2所述的方法, 其特 征在于, 所述预训练模型为SpanBERT模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述预设长度为512。 5.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S3包括: 采用三个二分类器分别判断每个字符是否属于BIE标签, 其中, 三个二分类器分别为B 标签二分类器、 I标签二分类器、 E标签二分类器, 所述B标签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否属于B标签为输出预先训练获得的二分类器, 所述I标 签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否为I标签为输出预先 训练获得的二分类器, 所述E标签二分类器是以预训练模型输出的字符的语义表达为输入、 字符是否为E标签为输出 预先训练获得的二分类 器。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤S4包括针对步骤S3中获得的文本 片段中每 个字符的标签获得多个连续 I标签序列, 并对每 个连续I标签序列执 行如下步骤: S41、 构建 短语集合和短语起始位置集 合, 并初始化短语起始位置集 合为空集; S42、 遍历当前连续I标签序列中每个字符的B标签和E标签, 将有B标签的字符位置加入 短语起始位置集合, 每遍历到一个E标签时以当前短语起始位置集合中的每一个字符位置 为短语起始位置、 当前E标签对应的字符位置为结束位置生成多个短语并放入短语集 合。 7.根据权利要求1所述的方法, 其特征在于, 所述步骤S5包括采用双线性注意力 机制计 算任意两个短语之 间的相似性得分, 并为每个短语保留与其相似性得分排名靠前的预设个 数的短语作为 其前置候选短语。 8.根据权利要求7 所述的方法, 其特 征在于, 所述预设个数为15 。 9.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 可 被处理器执行以实现权利要求1至8任一所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理权 利 要 求 书 1/2 页 2 CN 114997177 A 2器执行时, 使得 所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114997177 A 3
专利 一种基于多标签序列标注的指代消解方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 14:07:41
上传分享
举报
下载
原文档
(472.9 KB)
分享
友情链接
GB-T 15918-2010 海洋学综合术语.pdf
GB-T 22102-2008 防腐木材.pdf
青藤 - 国央企数字化转型安全建设指南0423.pdf
JRT 0214-2021 金融网络安全 网络安全众测实施指南.pdf
专利 一种基于图结构的网络安全数据处理方法和系统.PDF
GM-T 0132-2023 信息系统密码应用实施指南.pdf
T-BAX 0001.1—2021 安防监控中心值机工作与服务要求 :第1部分 值机工作要求.pdf
重点网络安全:“3保1评”(分保、等保、关保、密评).pdf
GB-T 32064-2015 建筑用材料导热系数和热扩散系数瞬态平面热源测试法.pdf
专利 一种智能语音调节的电动升降桌.PDF
GB/T 30428.8-2020 数字化城市管理信息系统 第8部分:立案、处置和结案.pdf
GB-T 36874-2018 湿帘技术性能测试方法.pdf
GB-T 43528-2023 电化学储能电池管理通信技术要求.pdf
GB-T 4814-2013 原木材积表.pdf
GB-T 3977-2008 颜色的表示方法.pdf
GB-T 19536-2015 集装箱底板用胶合板.pdf
GB 14443-2007 涂装作业安全规程 涂层烘干室安全技术规定.pdf
DB52-T 1541.5-2021 政务数据平台 第5部分:安全技术规范 贵州省.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
GB-T 21511.2-2008 纳米磷灰石-聚酰胺复合材料 第2部分:技术要求.pdf
交流群
-->
1
/
3
12
评价文档
赞助3元 点击下载(472.9 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。