说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114004.3 (22)申请日 2022.09.14 (71)申请人 吉林建筑大学 地址 130118 吉林省长 春市新城大街5 088 号 (72)发明人 王旭 周诗佳 张宇 尤天舒  徐勇 富倩 孙伟 李力东  杜丽英 戴传祗  (74)专利代理 机构 重庆三航专利代理事务所 (特殊普通 合伙) 50307 专利代理师 万文会 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01)G06Q 10/04(2012.01) (54)发明名称 基于多Agent环境的深度强化学习算法、 设 备和存储介质 (57)摘要 本申请提供一种基于多Agent环 境的深度强 化学习算法、 设备和存储介质, 涉及深度强化学 习算法技术领域; 通过步骤S101、 利用Agent中的 目标网络, 基于初始状态信息和动作信息, 确定 时间差分; 步骤S102、 根据预设的遮盖率, 对初始 状态信息进行随机遮盖, 得到目标状态信息, 利 用Agent中的预测网络, 以及时间差分, 确定误差 值; 步骤S103: 基于误差值, 以及自适应修改参 数, 对Agent中的预测网络和目标网络各自对应 的加权值进行更新; 步骤S104: 重复步骤S102和 步骤S103预设次数, 确定目标加权值, 从而确定 目标深度强化学习模型。 具有保证了样本学习效 率, 并通过自适应修改参数对深度强化学习模型 中的Agent进行迭代更新, 以提高收敛速度的效 果。 权利要求书2页 说明书10页 附图8页 CN 115392438 A 2022.11.25 CN 115392438 A 1.一种基于多Agent环境的深度强化学习算法, 其特征在于, 应用于多Agent环境中的 深度强化学习模型, 所述深度强化学习算法包括: 步骤S101、 利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间 差分; 步骤S102、 根据预设的遮盖率, 对所述初始状态性信息进行随机遮盖, 得到目标状态信 息; 利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以及所 述时间差分, 确定误差值; 步骤S103: 基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标 网络各自对应的加权值进行 更新; 步骤S104: 重 复步骤S102和步骤S103至预设次数, 确定目标加权值, 根据所述目标加权 值确定目标深度强化学习模型。 2.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述目 标网络包括目标actor网络和目标critic网络; 所述利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间差分, 包括: 将所述初始状态信息 输入至所述目标actor网络中进行 预测, 得到当前 策略信息; 将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价, 得 到对应的当前价 值信息; 根据所述当前价 值信息以及预设的环境奖惩 参数, 确定所述时间差分。 3.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括critic网络; 所述利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以 及所述时间差分, 确定误差值, 包括: 将所述目标状态信息和所述动作信息输入至所述critic 网络中进行预测, 得到目标价 值信息; 根据所述目标价 值信息和所述时间差分, 确定所述 误差值。 4.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括actor网络; 所述基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标网络各 自对应的加权值进行 更新, 包括: 基于所述 误差值, 对所述critic网络的加权值进行 更新; 对所述动作信息进行抽样, 得到目标动作信息, 根据所述目标动作信息对所述actor网 络的加权值进行 更新; 根据更新后的所述actor网络的加权值和更新后的critic网络的加权值, 以及所述自 适应修改参数, 对所述目标actor网络和所述目标critic网络各自对应的加权值进行 更新。 5.根据权利要求4所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据更新后的所述critic网络的加 权值和更新后的所述actor网络的加 权值, 以及所述自适 应修改参数, 对 所述目标actor网络和所述目标cr itic网络各自对应的加权值进 行更新, 包 括:权 利 要 求 书 1/2 页 2 CN 115392438 A 2基于预设的自适应加权平均更新模型, 确定所述自适应修改参数; 根据所述自适应修改参数, 确定网络更新模型; 根据网络更新模型, 以及所述更新后的所述critic 网络的加权值和所述更新后的所述 actor网络的加权值, 对所述目标actor网络和所述目标critic网络对应的加权值进行更 新。 6.根据权利要求5所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述自 适应加权平均更新模型为: 其中, τ代表所述自适应 修改参数, batch为智能体 样本个数, Qi为第i个智能体样本对应的所述当前价值信息, 为第i个智能体样本对应的 所述目标价 值信息。 7.根据权利 要求5或6所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述 更新模型为: ω′= τω+(1 ‑τ )ω′# 其中, τ代表所述自适应修改参数, τ小于等于1, ω={ω1, ..., ωn}是所述预测值的集 合, ω′={ω′1, ..., ω′n}是所述目标值的集 合。 8.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据所述目标加权值确定目标深度强化学习模型, 包括: 根据所述目标加权值, 分别对更新后所述critic网络的网络参数和更新后的所述 actor网络的网络参数进行软拷贝, 得到新的目标critic网络和新的目标actor网络; 从而 确定目标深度强化学习模型。 9.一种存储介质, 其特征在于, 包所述存储介质中存储有至少一条指令, 所示指令由处 理器加载并执行以实现如权利要求1 ‑8任一项所述基于多A gent环境中的深度强化学习 算 法。 10.一种设备, 其特征在于, 所述设备包括处理器和存储器, 所述存储器中存储有至少 一条指令, 所示指 令由处理器加载并执行以实现如权利要求1 ‑8任一项所述基于多Agent环 境中的深度强化学习算法。权 利 要 求 书 2/2 页 3 CN 115392438 A 3

.PDF文档 专利 基于多Agent环境的深度强化学习算法、设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多Agent环境的深度强化学习算法、设备和存储介质 第 1 页 专利 基于多Agent环境的深度强化学习算法、设备和存储介质 第 2 页 专利 基于多Agent环境的深度强化学习算法、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:12:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。