说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114004.3 (22)申请日 2022.09.14 (71)申请人 吉林建筑大学 地址 130118 吉林省长 春市新城大街5 088 号 (72)发明人 王旭 周诗佳 张宇 尤天舒 徐勇 富倩 孙伟 李力东 杜丽英 戴传祗 (74)专利代理 机构 重庆三航专利代理事务所 (特殊普通 合伙) 50307 专利代理师 万文会 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01)G06Q 10/04(2012.01) (54)发明名称 基于多Agent环境的深度强化学习算法、 设 备和存储介质 (57)摘要 本申请提供一种基于多Agent环 境的深度强 化学习算法、 设备和存储介质, 涉及深度强化学 习算法技术领域; 通过步骤S101、 利用Agent中的 目标网络, 基于初始状态信息和动作信息, 确定 时间差分; 步骤S102、 根据预设的遮盖率, 对初始 状态信息进行随机遮盖, 得到目标状态信息, 利 用Agent中的预测网络, 以及时间差分, 确定误差 值; 步骤S103: 基于误差值, 以及自适应修改参 数, 对Agent中的预测网络和目标网络各自对应 的加权值进行更新; 步骤S104: 重复步骤S102和 步骤S103预设次数, 确定目标加权值, 从而确定 目标深度强化学习模型。 具有保证了样本学习效 率, 并通过自适应修改参数对深度强化学习模型 中的Agent进行迭代更新, 以提高收敛速度的效 果。 权利要求书2页 说明书10页 附图8页 CN 115392438 A 2022.11.25 CN 115392438 A 1.一种基于多Agent环境的深度强化学习算法, 其特征在于, 应用于多Agent环境中的 深度强化学习模型, 所述深度强化学习算法包括: 步骤S101、 利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间 差分; 步骤S102、 根据预设的遮盖率, 对所述初始状态性信息进行随机遮盖, 得到目标状态信 息; 利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以及所 述时间差分, 确定误差值; 步骤S103: 基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标 网络各自对应的加权值进行 更新; 步骤S104: 重 复步骤S102和步骤S103至预设次数, 确定目标加权值, 根据所述目标加权 值确定目标深度强化学习模型。 2.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述目 标网络包括目标actor网络和目标critic网络; 所述利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间差分, 包括: 将所述初始状态信息 输入至所述目标actor网络中进行 预测, 得到当前 策略信息; 将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价, 得 到对应的当前价 值信息; 根据所述当前价 值信息以及预设的环境奖惩 参数, 确定所述时间差分。 3.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括critic网络; 所述利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以 及所述时间差分, 确定误差值, 包括: 将所述目标状态信息和所述动作信息输入至所述critic 网络中进行预测, 得到目标价 值信息; 根据所述目标价 值信息和所述时间差分, 确定所述 误差值。 4.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括actor网络; 所述基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标网络各 自对应的加权值进行 更新, 包括: 基于所述 误差值, 对所述critic网络的加权值进行 更新; 对所述动作信息进行抽样, 得到目标动作信息, 根据所述目标动作信息对所述actor网 络的加权值进行 更新; 根据更新后的所述actor网络的加权值和更新后的critic网络的加权值, 以及所述自 适应修改参数, 对所述目标actor网络和所述目标critic网络各自对应的加权值进行 更新。 5.根据权利要求4所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据更新后的所述critic网络的加 权值和更新后的所述actor网络的加 权值, 以及所述自适 应修改参数, 对 所述目标actor网络和所述目标cr itic网络各自对应的加权值进 行更新, 包 括:权 利 要 求 书 1/2 页 2 CN 115392438 A 2基于预设的自适应加权平均更新模型, 确定所述自适应修改参数; 根据所述自适应修改参数, 确定网络更新模型; 根据网络更新模型, 以及所述更新后的所述critic 网络的加权值和所述更新后的所述 actor网络的加权值, 对所述目标actor网络和所述目标critic网络对应的加权值进行更 新。 6.根据权利要求5所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述自 适应加权平均更新模型为: 其中, τ代表所述自适应 修改参数, batch为智能体 样本个数, Qi为第i个智能体样本对应的所述当前价值信息, 为第i个智能体样本对应的 所述目标价 值信息。 7.根据权利 要求5或6所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述 更新模型为: ω′= τω+(1 ‑τ )ω′# 其中, τ代表所述自适应修改参数, τ小于等于1, ω={ω1, ..., ωn}是所述预测值的集 合, ω′={ω′1, ..., ω′n}是所述目标值的集 合。 8.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据所述目标加权值确定目标深度强化学习模型, 包括: 根据所述目标加权值, 分别对更新后所述critic网络的网络参数和更新后的所述 actor网络的网络参数进行软拷贝, 得到新的目标critic网络和新的目标actor网络; 从而 确定目标深度强化学习模型。 9.一种存储介质, 其特征在于, 包所述存储介质中存储有至少一条指令, 所示指令由处 理器加载并执行以实现如权利要求1 ‑8任一项所述基于多A gent环境中的深度强化学习 算 法。 10.一种设备, 其特征在于, 所述设备包括处理器和存储器, 所述存储器中存储有至少 一条指令, 所示指 令由处理器加载并执行以实现如权利要求1 ‑8任一项所述基于多Agent环 境中的深度强化学习算法。权 利 要 求 书 2/2 页 3 CN 115392438 A 3
专利 基于多Agent环境的深度强化学习算法、设备和存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 12:12:45
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 35680-2017 液体材料微波频段使用开口同轴探头的电磁参数测量方法.pdf
GB-T 31504-2015 信息安全技术 鉴别与授权 数字身份信息服务框架规范.pdf
DB52-T 702-2011 杉木二元立木材积表 贵州省.pdf
GW0205-2014 国家电子政务外网 跨网数据安全交换技术要求与实施指南.pdf
GB-T 3364-2008 碳纤维直径和根数试验方法.pdf
GB-T 28637-2012 电动采光排烟天窗.pdf
DB33-T 2487-2022 公共数据安全体系建设指南 浙江省.pdf
T-GIEHA 050—2022 国际健康驿站 规划建设.pdf
T-CSAE 252—2022 智能网联汽车车载端信息安全测试规程.pdf
GB-T 32146.2-2015 检验检测实验室设计与建设技术要求 第2部分:电气实验室.pdf
GB-T 43331-2023 互联网数据中心 IDC 技术和分级要求.pdf
DB61-T 1665-2023 社区老年人日间照料中心管理规范 陕西省.pdf
DB34-T 3176-2018 公路水运工程预应力孔道数控压浆施工技术规程 安徽省.pdf
GB-T 25198-2010 压力容器封头.pdf
DL-T 1987-2019 六氟化硫气体泄漏在线监测报警装置技术条件.pdf
T-CGIA 035—2022 高导热膜用石墨烯材料应用指南.pdf
GM-T 0057-2018 基于IBC技术的身份鉴别规范.pdf
GB-T 14227-2006 城市轨道交通车站站台声学要求和测量方法.pdf
GB-T 38408-2019 皮革 材质鉴别 显微镜法.pdf
DB64-T 405-2017 火灾自动报警系统质量检验评定规程 宁夏回族自治区.pdf
1
/
3
21
评价文档
赞助3元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。