说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211158611.X (22)申请日 2022.09.22 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 申请人 上海境山科技有限公司 (72)发明人 何道敬 成青园 顾鸿杰  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/166(2020.01) G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 一种序列标注任务的文本数据增强方法及 系统 (57)摘要 一种序列标注任务的文本数据增强方法及 系统, 该方法包括: 将序列标注任务的文本数据 集按照7:1:2 的比例划分为训练集、 验证集和测 试集; 从序列标注任务的训练集中提取实体和实 体类型; 将每种实体类型的不同实体合并为实体 列表, 每种实体类型和对应的实体列表为一个键 值对, 多个键值对构成实体字典; 对序列标注任 务的训练集进行数据增强, 生成增强文本; 对于 生成的若干个增强本文进行去重处理将训练集 和增强文本合并, 得到增强文本集, 进行深度学 习模型训练。 本申请的序列标注任务包括: 命名 实体识别任务或关系抽取任务, 通过实体替换的 方法进行数据增强, 能够有效保留实体间上下文 语义, 提高模型的泛化能力。 权利要求书2页 说明书6页 附图3页 CN 115438645 A 2022.12.06 CN 115438645 A 1.一种序列标注任务的文本数据增强方法, 其特 征在于, 该 方法包括以下步骤: 步骤1: 数据 集划分, 将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、 验 证集和测试集; 步骤2: 实体获取, 从序列标注任务的训练集中提取实体和实体 类型; 步骤3: 实体字典构造, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和 对应的实体列表为 一个键值对, 多个键值对构成实体字典; 步骤4: 数据增强, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 步骤5: 增强文本去重, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 步骤6: 模型训练, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测 试模型的泛化 误差, 通过测试集对 模型效果进行评估; 其中: 步骤4所述对序列标注任务的训练集进行 数据增强, 具体包括: 从序列标注任务的训练集中选 定一个目标文本, 确定目标文本的待替换实体; 对于待替换实体, 在概 率P的二项式分布下, 随机 选择该实体是否进行实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 对于目标文本中的所有 待替换实体 类型进行替换操作, 得到增强文本 。 2.根据权利要求1所述的序列标注任务的文本数据增强方法, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 3.一种序列标注任务的文本数据增强系统, 其特 征在于, 包括: 数据获取模块, 用于获取并建立序列标注任务的文本数据集, 按照7:1:2的比例划分为 训练集、 验证集和 测试集; 实体字典生成模块, 用于利用序列标注任务的训练集 生成实体字典; 数据增强模块, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 增强文本去重模块, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 模型训练模块, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测试 模型的泛化 误差, 通过测试集对 模型效果进行评估。 4.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 5.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述实体字 典生成模块进一 步包括: 实体获取 单元, 从序列标注任务的训练集中提取实体和实体 类型; 实体字典构造单元, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和对 应的实体列表为 一个键值对, 多个键值对构成实体字典。 6.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述数据增 强模块进一 步包括: 目标文本选择单元, 从序列标注任务的训练集中选定一个目标文本, 确定目标文本的 待替换实体; 实体替换单元, 对于待替换实体, 在概率P的二项式分布下, 随机选择该实体是否进行权 利 要 求 书 1/2 页 2 CN 115438645 A 2实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 增强文本生成单元, 对于目标文本中的所有待替换实体类型进行替换操作, 得到增强 文本。权 利 要 求 书 2/2 页 3 CN 115438645 A 3

.PDF文档 专利 一种序列标注任务的文本数据增强方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种序列标注任务的文本数据增强方法及系统 第 1 页 专利 一种序列标注任务的文本数据增强方法及系统 第 2 页 专利 一种序列标注任务的文本数据增强方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:10:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。