说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211426405.2 (22)申请日 2022.11.15 (71)申请人 阿里云计算有限公司 地址 310024 浙江省杭州市西湖区转塘科 技经济区块12号 (72)发明人 芮藤长 史洋洋 潘涌 杨帅  钮骏凯 肖雄 韩泽鋆 吕彪  祝顺民  (74)专利代理 机构 北京天同知创知识产权代理 事务所(普通 合伙) 16046 专利代理师 赵囡囡 (51)Int.Cl. G06N 20/00(2019.01) G06F 16/906(2019.01) (54)发明名称 基于时序数据生 成训练数据的方法、 设备和 可读存储介质 (57)摘要 本申请公开了基于时序数据生成训练数据 的方法、 设备和可读存储介质, 该方法包括: 获取 时序数据; 将所述时序数据中除正常的时序数据 段之外其他时序数据段作为待标注的时序数据 段; 将所述待标注的时序数据段进行分类得到多 个种类的时序数据段, 对所述多个种类中的每个 种类的时序数据段进行标注, 其中, 所述标注用 于为该种类的时序数据段增加标签; 将标注好的 多个种类的时序数据段作为训练数据使用。 通过 本申请解决了采用人工来标注网络指标对应的 时序数据所导致的效率低并且成本高的问题, 进 而可以对数据进行预先处理, 对处理后的数据进 行标注, 相比于纯人工标注的方式在一定程度上 提高了时序数据标注效率, 并且降低了标注的成 本。 权利要求书2页 说明书11页 附图2页 CN 115511106 A 2022.12.23 CN 115511106 A 1.一种基于时序数据生成训练数据的方法, 包括: 获取时序数据, 其中, 所述 时序数据 是对网络指标进行监控时采集到的数据, 所述时序 数据为按照时间顺序记录的数据; 将所述时序数据中除正常的时序数据段之外其他时序数据段作为待标注的时序数据 段, 其中, 所述 正常的时序数据段 是所述网络指标处于正常状态下产生的一段时序数据; 将所述待标注的时序 数据段进行分类得到多个种类的时序 数据段, 对所述多个种类中 的每个种类的时序数据段进行标注, 其中, 所述标注用于为该种类的时序数据段增加标签, 该标签用于指示该种类的时序数据段的异常类型; 将标注好的多个种类的时序数据段作为训练数据使用, 其中, 所述训练数据用于训练 机器学习模型, 该机器学习模型用于识别时序数据段的异常类型。 2.根据权利要求1所述的方法, 其中, 将所述 时序数据中除正常的时序 数据段之外其他 时序数据段作为待标注的时序数据段之前, 所述方法还 包括: 从所述时序数据中识别出 具有周期性和/或平稳性的时序数据段; 将具有所述周期性和/或所述平稳性的时序数据段作为所述 正常的时序数据段。 3.根据权利要求2所述的方法, 其中, 从所述时序数据中识别出具有周期性的时序 数据段包括: 确定所述网络指标对应的时 序数据是否具有周期性, 在具有周期性的情况下获取所述网络指标对应的时序数据的周期 性规律, 从所述时序数据中识别出 具有所述周期性 规律的时序数据段; 和/或, 从所述时序数据中识别出具有平稳性的时序 数据段包括: 确定所述网络指标对应的时 序数据是否具有平稳性, 在具有平稳性的情况下获取所述网络指标对应的时序数据的上下 限, 从所述时序数据中识别出在所述上下限范围内的时序数据段作为具有 所述平稳性的时 序数据段。 4.根据权利要求3所述的方法, 其中, 确定网络指标对应的时序 数据是否具有周期性包 括: 将所述网络指标对应的时序数据分为多个时序数据段; 获取所述多个时序数据段中的两 两时序数据段的距离; 在两两时序数据段的距离均小于 阈值的情况下, 确认该网络指标对应的所述 时序数据 具有周期性。 5.根据权利要求3所述的方法, 其中, 确定所述网络指标对应的时序数据 是否具有平稳 性包括: 获取所述网络指标对应的时序数据所对应的多项式, 其中, 所述多项式用于在时间上 表示所述网络指标对应的时序数据; 根据所述多 项式是否存在单位 根确定所述网络指标对应的时序数据是否具有平稳性。 6.根据权利要求1至5中任一项所述的方法, 其中, 对所述每个种类的时序数据段进行 标注包括: 对所述每个种类的时序数据段使用异常检测算法进行检测, 其中, 所述异常检测算法 为预先配置的; 将使用所述异常检测算法检测出每个种类的时序 数据段对应的异常类型提供给人工, 作为人工标注 异常类型的参 考。权 利 要 求 书 1/2 页 2 CN 115511106 A 27.根据权利要求6所述的方法, 其中, 还 包括: 获取被人工标注出时序数据段对应的异常类型; 将使用所述异常检测算法检测出的异常类型和所述人工标注出的异常类型进行比较; 保存人工标注的异常类型与异常检测算法检测的异常类型不同的时序数据段。 8.根据权利要求1至5中任一项所述的方法, 其中, 将所述待标注的时序数据进行分类 得到多个种类的时序数据包括: 获取预先配置的所述多个种类, 其中, 每 个种类对应的时序数据段的特性 不同; 获取预先配置的多个种类中每个种类对应的典型时序数据段, 其中, 所述典型时序数 据段是人工挑选出的具有该种类特定的时序数据段; 对每个所述待标注的时序数据段与每个种类对应的所述典型时序 数据段进行比较, 确 定与该待标注时序数据段相似度最高的典型时序数据段, 将相似度最高的典型时序数据段 对应的种类作为该时序数据段的种类。 9.根据权利要求1至5中任一项所述的方法, 其中, 将所述待标注的时序数据段进行分 类包括: 使用聚类算法对所述待标注的时序数据段进行聚类, 得到多个种类的时序数据段; 其 中, 所述聚类算法为无监 督机器学习算法。 10.一种基于时序数据机器学习 系统, 其中, 包括: 训练数据生成装置, 用于根据权利要求1至9中任一项所述的方法生成训练数据; 服务器, 用于使用来自所述训练数据生成装置的训练数据训练机器学习模型, 其中, 所 述机器学习模型用于识别时序数据段的异常类型。 11.一种电子设备, 包括存储器和 处理器; 其中, 所述存储器用于存储一条或多条计算 机指令, 其中, 所述一条或多条计算机指令被所述处理器执行以实现权利要求1至9任一项 所述的方法步骤。 12.一种可读存储介质, 其上存储有计算机指令, 其中, 该计算机指令被处理器执行时 实现权利要求1至9任一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 115511106 A 3

.PDF文档 专利 基于时序数据生成训练数据的方法、设备和可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时序数据生成训练数据的方法、设备和可读存储介质 第 1 页 专利 基于时序数据生成训练数据的方法、设备和可读存储介质 第 2 页 专利 基于时序数据生成训练数据的方法、设备和可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:12:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。