说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211158611.X (22)申请日 2022.09.22 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 申请人 上海境山科技有限公司 (72)发明人 何道敬 成青园 顾鸿杰 (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/166(2020.01) G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 一种序列标注任务的文本数据增强方法及 系统 (57)摘要 一种序列标注任务的文本数据增强方法及 系统, 该方法包括: 将序列标注任务的文本数据 集按照7:1:2 的比例划分为训练集、 验证集和测 试集; 从序列标注任务的训练集中提取实体和实 体类型; 将每种实体类型的不同实体合并为实体 列表, 每种实体类型和对应的实体列表为一个键 值对, 多个键值对构成实体字典; 对序列标注任 务的训练集进行数据增强, 生成增强文本; 对于 生成的若干个增强本文进行去重处理将训练集 和增强文本合并, 得到增强文本集, 进行深度学 习模型训练。 本申请的序列标注任务包括: 命名 实体识别任务或关系抽取任务, 通过实体替换的 方法进行数据增强, 能够有效保留实体间上下文 语义, 提高模型的泛化能力。 权利要求书2页 说明书6页 附图3页 CN 115438645 A 2022.12.06 CN 115438645 A 1.一种序列标注任务的文本数据增强方法, 其特 征在于, 该 方法包括以下步骤: 步骤1: 数据 集划分, 将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、 验 证集和测试集; 步骤2: 实体获取, 从序列标注任务的训练集中提取实体和实体 类型; 步骤3: 实体字典构造, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和 对应的实体列表为 一个键值对, 多个键值对构成实体字典; 步骤4: 数据增强, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 步骤5: 增强文本去重, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 步骤6: 模型训练, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测 试模型的泛化 误差, 通过测试集对 模型效果进行评估; 其中: 步骤4所述对序列标注任务的训练集进行 数据增强, 具体包括: 从序列标注任务的训练集中选 定一个目标文本, 确定目标文本的待替换实体; 对于待替换实体, 在概 率P的二项式分布下, 随机 选择该实体是否进行实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 对于目标文本中的所有 待替换实体 类型进行替换操作, 得到增强文本 。 2.根据权利要求1所述的序列标注任务的文本数据增强方法, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 3.一种序列标注任务的文本数据增强系统, 其特 征在于, 包括: 数据获取模块, 用于获取并建立序列标注任务的文本数据集, 按照7:1:2的比例划分为 训练集、 验证集和 测试集; 实体字典生成模块, 用于利用序列标注任务的训练集 生成实体字典; 数据增强模块, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 增强文本去重模块, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 模型训练模块, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测试 模型的泛化 误差, 通过测试集对 模型效果进行评估。 4.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 5.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述实体字 典生成模块进一 步包括: 实体获取 单元, 从序列标注任务的训练集中提取实体和实体 类型; 实体字典构造单元, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和对 应的实体列表为 一个键值对, 多个键值对构成实体字典。 6.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述数据增 强模块进一 步包括: 目标文本选择单元, 从序列标注任务的训练集中选定一个目标文本, 确定目标文本的 待替换实体; 实体替换单元, 对于待替换实体, 在概率P的二项式分布下, 随机选择该实体是否进行权 利 要 求 书 1/2 页 2 CN 115438645 A 2实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 增强文本生成单元, 对于目标文本中的所有待替换实体类型进行替换操作, 得到增强 文本。权 利 要 求 书 2/2 页 3 CN 115438645 A 3
专利 一种序列标注任务的文本数据增强方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 12:10:50
上传分享
举报
下载
原文档
(482.5 KB)
分享
友情链接
LD-T 08-2022 人力资源社会保障灾备中心建设和运维管理规范.pdf
设备管理制度.pdf
GB-T 22726-2008 多声道数字音频编解码技术规范.pdf
GM-T 0124-2022 安全隔离与信息交换产品密码检测规范.pdf
GB 18967-2009 改性沥青聚乙烯胎防水卷材.pdf
JFrog 中国解决方案架构师 企业级DevSecOps 开源治理方案演讲之路.pdf
DB37-T 5252-2023 《房屋建筑施工扬尘防治技术规程》 山东省.pdf
中国电信 云网安全技术白皮书 2022.pdf
DB63-T 2070-2022 自然保护区数据库建设和更新技术规范 青海省.pdf
信创安全典型行业应用专题报告.pdf
T-CFA 03110323—2022 铸件加工单元数字化技术要求.pdf
T-GDNAS 003—2022 ECMO导管维护技术规范.pdf
GA-T 460.2-2020 居民身份证卡体材料及打印薄膜技术规范 第2部分:制卡用印刷层白色PETG薄膜.pdf
GB/T 40997-2021 经外奇穴名称与定位.pdf
GB-T 18451.1-2022 风力发电机组 设计要求.pdf
DB15-T 2007—2020 党政机关办公区突发事件应急预案编制导则 内蒙古自治区.pdf
DB44-T 1212-2013 用能单位能源计量管理体系通用要求 广东省.pdf
ISO IEC 38505-1 中文版.pdf
TC260 网络安全标准实践指南 Windows 7操作系统安全加固指引.pdf
GB-T 43243-2023 机关事务信息化基础数据规范.pdf
1
/
3
12
评价文档
赞助3元 点击下载(482.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。