说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211119789.3 (22)申请日 2022.09.15 (71)申请人 中国船舶集团有限公司第七〇九研 究所 地址 430000 湖北省武汉市江夏区凤 凰产 业园藏龙 北路1号 (72)发明人 刘俊涛 汤海南 王振杰 高子文  李昊  (74)专利代理 机构 深圳市六加知识产权代理有 限公司 4 4372 专利代理师 向彬 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G05B 13/04(2006.01) (54)发明名称 基于最大熵投影的控制系统强化学习方法 和装置 (57)摘要 本发明公开了一种基于最大熵投影的控制 系统强化学习方法: 初始化模型参数; 重置强化 学习环境; 在每一时刻, 智能体根据探索策略和 行动策略的线性组合产生行动; 在 环境中执行行 动, 得到回报和新的环境状态, 并将其加入到训 练数据集中; 训练并更新行动策略; 在训练数据 集中采样用于训练探索策略的子集, 计算最大熵 投影矩阵, 训练并更新探策略; 强化学习环境执 行完后, 如果学习过程收敛则结束学习, 否则返 回继续学习。 本发明方法, 通过识别最有探索价 值的状态, 鼓励智 能体对该状态探索, 提高探索 效率, 加快训练速度, 能够减少智能体学习时间, 更快的使控制系统开始执行并完成给定任务。 本 发明还提供了相应的基于最大熵投影的控制系 统强化学习装置 。 权利要求书2页 说明书4页 附图2页 CN 115526335 A 2022.12.27 CN 115526335 A 1.一种基于最大熵投影的控制系统强化学习方法, 其特 征在于, 包括如下步骤: S1初始化模型参数, 模型参数包括探索策略πE(a|s, θE)参数θE和行动策略πA(a|s, θA)参 数θA, 其中探索策略πE(a|s, θE)表示为了充分探索, 当状态为s智能体选择行动a的概率, 行 动策略πA(a|s, θA)表示为了获得最大回报, 当状态为s智能体选择行动a的概率; 其中, 状态s 为控制系统部署在多个关键位置的传感器的读数组成的向量, a为控制系统中多个控制单 元的控制量组成的向量; S2重置强化学习环境; S3在每一个时刻t, 智能体根据探索策略πE和行动策略πA的线性组合π=(1 ‑α )πA+α πE产 生行动at, 其中, 权 重α ∈[0,1]表示当前智能体是 更倾向于 探索还更倾向于获得最大回报; S4在t时刻, 智能体根据当前控制系统的状态st, 在控制系统中执行行动at, 得到回报 rt, 控制系统的状态变为st+1, 将(st,at,rt,st+1)加入到训练数据集D中, 所述r反映了所述控 制系统正确执 行给定任务的程度; S5用训练数据集D, 采用强化学习方法训练并更新行动策略πA的参数θA; S6在训练数据集D中采样用于训练探索策略πE的子集DE, 根据训练样本子集DE, 计算最 大熵投影矩阵, 训练并更新探索策略πE; S7检查收敛 条件, 如果 不收敛则返回S3, 否则结束。 2.如权利要求1所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所述步 骤S6具体包括: S6‑1在训练数据集D中随机采样n个训练样本, 形成用于训练探索策略πE的子集DE= {(si,ai,ri,si+1)|i=1,2,...,n},其中(si,ai,ri,si+1)为DE中的一个训练样本; S6‑2将DE={(si,ai,ri,si+1)|i=1,2,...,n}所有训练样本包含的当前状态向量{si}组 成状态向量矩阵Sm×n, 其中S的第i列是状态向量si, S的行数m与状态向量si的维数相同; S6‑3最大化下式得到最大熵投影矩阵p*k×n, 其中S'=pS是投 影后的状态矩阵, pk×m是投影矩阵, S'中的每一列即为经投影矩阵p投影后的状态向量, 是对S'按行求均值得到的矩阵; S6‑4经过最佳投影矩阵p*投影后的状态矩阵S*=p* ·S中的每一列 为投影后的状态向 量, 统计这些列向量在投影后的状态矩阵S *中出现的次数, 找到出现次数最少的列向量, 其 下标记为i*, 取状态向量矩阵S*中的第i*列为探索目标状态sg; S6‑5构造新的用于训练探索策略的训练数据D'E={(si,ai,r'i,si+1)|i=1,2,...,n }, 其中训练样本中的当前状态si、 动作ai、 下一时刻状态si+1与DE={(si,ai,ri,si+1)|i=1, 2,...,n}中的相同, 训练样本中的回报r'i设置方法如下: S6‑6用新的训练数据D'E, 采用强化学习方法训练并更新探索策略πE。 3.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 步 骤S1中, 对探索策略πE(a|s, θE)参数θE和行动策略πA(a|s, θA)参数θA初始化的方法是生成 (0,1)区间的均匀分布的随机数。权 利 要 求 书 1/2 页 2 CN 115526335 A 24.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述步骤S2具体为: 对 控制系统进行初始化, 使其回到初始状态。 5.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述步骤S5中的强化学习方法包括SAC(Soft  Actor‑Critic, 软演员评论家算法), 或者PPO (Proximal  Policy Optimizati on, 近端策略优化 算法)。 6.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述步骤S7中的收敛 条件为: 迭代次数达 到设定的最大值。 7.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述步骤S7中的收敛 条件为: 获得的平均累积回报的均方差小于预设值。 8.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述控制系统中的控制单 元为电动机或继电器。 9.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所 述控制系统需要完成的任务 为: 保持某种运动状态, 或者按照给定 轨迹移动。 10.一种基于最大熵投影的控制系统强化学习装置, 其特 征在于: 包括至少一个处理器和存储器, 所述至少一个处理器和存储器之间通过数据总线连 接, 所述存储器存储能被所述至少一个处理器执行 的指令, 所述指令在被所述处理器执行 后, 用于完成权利要求1 ‑9中任一项所述的基于最大熵投影的控制系统强化学习方法。权 利 要 求 书 2/2 页 3 CN 115526335 A 3

.PDF文档 专利 基于最大熵投影的控制系统强化学习方法和装置

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于最大熵投影的控制系统强化学习方法和装置 第 1 页 专利 基于最大熵投影的控制系统强化学习方法和装置 第 2 页 专利 基于最大熵投影的控制系统强化学习方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:12:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。