说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211247259.7 (22)申请日 2022.10.12 (71)申请人 太极计算机股份有限公司 地址 100102 北京市海淀区北四环中路21 1 号 (72)发明人 马玉杰 彭渊 陈振 王鑫  董子涵 张凯 刘娅汝 常泽贤  王孟宇  (74)专利代理 机构 北京知了蝉专利代理事务所 (普通合伙) 11959 专利代理师 周萍 (51)Int.Cl. G06F 9/455(2006.01) G06N 20/00(2019.01) (54)发明名称 一种机器学习模 型在集群中的处理方法、 装 置及存储介质 (57)摘要 本申请涉及一种机器学习模型在集群中的 处理方法、 装置及存储介质, 该方法包括: 获取模 型训练调度请求, 所述模型训练调度请求用于对 集群中的数据库中的目标模型进行训练, 所述模 型训练调度请求中包括训练参数、 模 型识别参数 和资源参数; 所述数据库中存储有多个机器学习 模型, 所述目标模型为多个所述机器学习模型中 的任一模型; 基于所述集群本地的镜像 资源构建 容器镜像, 并将所述调度请求中所包括的参数内 置与所述容器镜像中; 基于所述容器镜像对所述 目标模型进行训练; 在训练完成后, 将训练完成 后的所述目标模型的信息注册至所述集群的注 册表中并发布已注册的所述信息。 通过本申请, 解决了现有技术中需要单独为每个机器学习任 务分配GPU的问题。 权利要求书2页 说明书9页 附图5页 CN 115543537 A 2022.12.30 CN 115543537 A 1.一种机器学习模型在集群中的处 理方法, 其特 征在于, 包括: 获取模型训练调度请求, 其中, 所述模型训练调度请求用于对集群中的数据库中的目 标模型进 行训练, 所述模型训练调 度请求中包括训练参数、 模 型识别参数和资源参数; 所述 数据库中存储有多个机器学习模型, 所述目标模型为多个所述机器学习模型中的任一模 型; 基于所述集群本地的镜像资源构建容器镜像, 并将所述调度请求中所包括的参数内置 与所述容器镜像中; 基于所述 容器镜像对所述目标模型进行训练; 在训练完成后, 将训练完成后的所述目标模型的信 息注册至所述集群的注册表中并发 布已注册的所述信息 。 2.根据权利要求1所述的方法, 其特征在于, 在获取模型训练调度请求之前, 所述方法 还包括: 对待上传的机器学习模型 所对应的上传信息进行代码检测; 对所述待上传的机器学习模型 所对应的上传信息进行依赖检测; 在所述代码检测和依赖检测通过后, 将所述机器学习模型所对应的上传信 息传输至所 述集群的数据库。 3.根据权利要求2所述的方法, 其特征在于, 所述对待上传的机器学习 模型所对应的上 传信息进行代码检测, 包括: 确定所述待上传的机器学习模型所对应的上传信息中是否存在用于所述集群对所述 机器学习模型进行调用和管理的接口; 在所述待上传的机器学习模型所对应的上传信息中存在用于所述集群对所述机器学 习模型进行调用和管理的接口的情况下, 确定所述待上传的机器学习模型的代码检测通 过。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述待上传的机器学习模型所对应 的上传信息进行依赖检测, 包括: 比较所述待上传的机器学习模型所对应的上传信息 中的依赖项和所述集群本地pip源 中的包列表; 在本地镜像源中缺失与所述机器学习 模型对应的包的情况下, 上传与 所述机器学习 模 型对应的包, 并确定所述待上传的机器学习模型的依赖检测通过; 在本地镜像源中不缺失与 所述机器学习模型对应的包的情况下, 确定所述待上传的机 器学习模型的依赖检测通过。 5.根据权利要求2所述的方法, 其特征在于, 所述将所述机器学习 模型所对应的上传信 息传输至所述集群的数据库, 包括: 将所述机器学习模型所对应的上传信息传输至所述集群中持久化数据卷中, 其中, 所 述上传信息包括: 所述机器学习模型所对应的代码、 所述机器学习模 型所对应的模型数据、 模型预训练的检查 点。 6.根据权利要求2所述的方法, 其特 征在于, 所述基于所述集群本地的镜像资源构建容器镜像, 并将所述调度请求中所包括的参数 内置与所述 容器镜像中包括:权 利 要 求 书 1/2 页 2 CN 115543537 A 2从所述集群本地的镜像资源库中获取基础镜像和所述集群本地维护的pip源中安装的 编程数据包, 并基于所述基础镜像和所述编程数据包构建所述 容器镜像; 将所述训练参数、 所述模型识别参数和所述资源参数内置在所述容器镜像中, 所述资 源包括所需的GPU数和机器数; 所述基于所述 容器镜像对所述目标模型进行训练, 包括: 基于所述容器镜像中的所述资源、 所述模型识别参数和所述训练参数生成所述集群的 训练任务, 并调用所述 集群的API执 行所述训练任务。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 监控对所述目标模型进行训练的过程, 并输出集群所产生的日志; 在所述日志报错的情况 下, 删除对所述目标模型进行训练当前任务; 在基于所述日志确定模型训练任务完成的情况 下, 上报训练完成的标志。 8.根据权利要求1所述的方法, 其特 征在于, 所述发布已注 册的所述信息包括: 获取与所述目标模型对应的标识信息; 从所述集群的数据库中的注册表中获取所述目标模型以下信息: 代码、 数据、 检查点、 版本、 模型种类; 基于获取到的信息生成发布任务, 其中, 所述发布任务包括: 挂载信息、 镜像信息、 以及 运行命令; 将所述发布任务 填充到所述 集群的发布模板, 并发布所述发布模板 。 9.一种机器学习模型在集群中的处 理装置, 其特 征在于, 包括: 获取模块, 用于获取模型训练调度请求, 其中, 所述模型训练调度请求用于对集群中的 数据库中的目标模型进行训练, 所述模型训练调度请求中包括训练参数、 模型识别参数和 资源参数; 所述数据库中存储有多个机器学习模型, 所述 目标模型为多个所述机器学习模 型中的任一模型; 构建模块, 用于基于所述集群本地的镜像资源构建容器镜像, 并将所述调度请求中所 包括的参数内置与所述 容器镜像中; 第一处理模块, 用于基于所述 容器镜像对所述目标模型进行训练; 第二处理模块, 用于在训练完成后, 将训练完成后的所述目标模型的信息注册至所述 集群的注 册表中并发布已注 册的所述信息 。 10.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总 线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现权利要求1 ‑8中任一项所述的方法步 骤。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求1 ‑8中任一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 115543537 A 3

.PDF文档 专利 一种机器学习模型在集群中的处理方法、装置及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种机器学习模型在集群中的处理方法、装置及存储介质 第 1 页 专利 一种机器学习模型在集群中的处理方法、装置及存储介质 第 2 页 专利 一种机器学习模型在集群中的处理方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:11:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。