专利 基于多Agent环境的深度强化学习算法、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211114004.3 (22)申请日 2022.09.14 (71)申请人吉林建筑大学地址 130118 吉林省长春市新城大街5 088 号 (72)发明人王旭　周诗佳　张宇　尤天舒　徐勇　富倩　孙伟　李力东　杜丽英　戴传祗　 (74)专利代理机构重庆三航专利代理事务所 (特殊普通合伙) 50307 专利代理师万文会 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01)G06Q 10/04(2012.01) (54)发明名称基于多Agent环境的深度强化学习算法、设备和存储介质 (57)摘要本申请提供一种基于多Agent环境的深度强化学习算法、设备和存储介质，涉及深度强化学习算法技术领域；通过步骤S101、利用Agent中的目标网络，基于初始状态信息和动作信息，确定时间差分；步骤S102、根据预设的遮盖率，对初始状态信息进行随机遮盖，得到目标状态信息，利用Agent中的预测网络，以及时间差分，确定误差值；步骤S103：基于误差值，以及自适应修改参数，对Agent中的预测网络和目标网络各自对应的加权值进行更新；步骤S104：重复步骤S102和步骤S103预设次数，确定目标加权值，从而确定目标深度强化学习模型。具有保证了样本学习效率，并通过自适应修改参数对深度强化学习模型中的Agent进行迭代更新，以提高收敛速度的效果。权利要求书2页说明书10页附图8页 CN 115392438 A 2022.11.25 CN 115392438 A 1.一种基于多Agent环境的深度强化学习算法，其特征在于，应用于多Agent环境中的深度强化学习模型，所述深度强化学习算法包括：步骤S101、利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分；步骤S102、根据预设的遮盖率，对所述初始状态性信息进行随机遮盖，得到目标状态信息；利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值；步骤S103：基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和目标网络各自对应的加权值进行更新；步骤S104：重复步骤S102和步骤S103至预设次数，确定目标加权值，根据所述目标加权值确定目标深度强化学习模型。 2.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述目标网络包括目标actor网络和目标critic网络；所述利用所述Agent中的目标网络，基于智能体样本的初始状态信息，确定时间差分，包括：将所述初始状态信息输入至所述目标actor网络中进行预测，得到当前策略信息；将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价，得到对应的当前价值信息；根据所述当前价值信息以及预设的环境奖惩参数，确定所述时间差分。 3.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述预测网络包括critic网络；所述利用所述Agent中的预测网络，根据所述目标状态信息、智能体样本的动作信息以及所述时间差分，确定误差值，包括：将所述目标状态信息和所述动作信息输入至所述critic 网络中进行预测，得到目标价值信息；根据所述目标价值信息和所述时间差分，确定所述误差值。 4.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述预测网络包括actor网络；所述基于所述误差值，以及自适应修改参数，对所述Agent中的预测网络和目标网络各自对应的加权值进行更新，包括：基于所述误差值，对所述critic网络的加权值进行更新；对所述动作信息进行抽样，得到目标动作信息，根据所述目标动作信息对所述actor网络的加权值进行更新；根据更新后的所述actor网络的加权值和更新后的critic网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标critic网络各自对应的加权值进行更新。 5.根据权利要求4所述的基于多Agent环境的深度强化学习算法，其特征在于，所述根据更新后的所述critic网络的加权值和更新后的所述actor网络的加权值，以及所述自适应修改参数，对所述目标actor网络和所述目标cr itic网络各自对应的加权值进行更新，包括：权　利　要　求　书 1/2 页 2 CN 115392438 A 2基于预设的自适应加权平均更新模型，确定所述自适应修改参数；根据所述自适应修改参数，确定网络更新模型；根据网络更新模型，以及所述更新后的所述critic 网络的加权值和所述更新后的所述 actor网络的加权值，对所述目标actor网络和所述目标critic网络对应的加权值进行更新。 6.根据权利要求5所述的基于多Agent环境的深度强化学习算法，其特征在于，所述自适应加权平均更新模型为：其中， τ代表所述自适应修改参数， batch为智能体样本个数， Qi为第i个智能体样本对应的所述当前价值信息，为第i个智能体样本对应的所述目标价值信息。 7.根据权利要求5或6所述的基于多Agent环境的深度强化学习算法，其特征在于，所述更新模型为： ω′＝ τω+(1 ‑τ )ω′# 其中， τ代表所述自适应修改参数， τ小于等于1， ω＝{ω1， ...， ωn}是所述预测值的集合， ω′＝{ω′1， ...， ω′n}是所述目标值的集合。 8.根据权利要求1所述的基于多Agent环境的深度强化学习算法，其特征在于，所述根据所述目标加权值确定目标深度强化学习模型，包括：根据所述目标加权值，分别对更新后所述critic网络的网络参数和更新后的所述 actor网络的网络参数进行软拷贝，得到新的目标critic网络和新的目标actor网络；从而确定目标深度强化学习模型。 9.一种存储介质，其特征在于，包所述存储介质中存储有至少一条指令，所示指令由处理器加载并执行以实现如权利要求1 ‑8任一项所述基于多A gent环境中的深度强化学习算法。 10.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所示指令由处理器加载并执行以实现如权利要求1 ‑8任一项所述基于多Agent环境中的深度强化学习算法。权　利　要　求　书 2/2 页 3 CN 115392438 A 3

专利 基于多Agent环境的深度强化学习算法、设备和存储介质

专利基于多Agent环境的深度强化学习算法、设备和存储介质