(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211119789.3
(22)申请日 2022.09.15
(71)申请人 中国船舶集团有限公司第七〇九研
究所
地址 430000 湖北省武汉市江夏区凤 凰产
业园藏龙 北路1号
(72)发明人 刘俊涛 汤海南 王振杰 高子文
李昊
(74)专利代理 机构 深圳市六加知识产权代理有
限公司 4 4372
专利代理师 向彬
(51)Int.Cl.
G06N 20/00(2019.01)
G06K 9/62(2022.01)
G05B 13/04(2006.01)
(54)发明名称
基于最大熵投影的控制系统强化学习方法
和装置
(57)摘要
本发明公开了一种基于最大熵投影的控制
系统强化学习方法: 初始化模型参数; 重置强化
学习环境; 在每一时刻, 智能体根据探索策略和
行动策略的线性组合产生行动; 在 环境中执行行
动, 得到回报和新的环境状态, 并将其加入到训
练数据集中; 训练并更新行动策略; 在训练数据
集中采样用于训练探索策略的子集, 计算最大熵
投影矩阵, 训练并更新探策略; 强化学习环境执
行完后, 如果学习过程收敛则结束学习, 否则返
回继续学习。 本发明方法, 通过识别最有探索价
值的状态, 鼓励智 能体对该状态探索, 提高探索
效率, 加快训练速度, 能够减少智能体学习时间,
更快的使控制系统开始执行并完成给定任务。 本
发明还提供了相应的基于最大熵投影的控制系
统强化学习装置 。
权利要求书2页 说明书4页 附图2页
CN 115526335 A
2022.12.27
CN 115526335 A
1.一种基于最大熵投影的控制系统强化学习方法, 其特 征在于, 包括如下步骤:
S1初始化模型参数, 模型参数包括探索策略πE(a|s, θE)参数θE和行动策略πA(a|s, θA)参
数θA, 其中探索策略πE(a|s, θE)表示为了充分探索, 当状态为s智能体选择行动a的概率, 行
动策略πA(a|s, θA)表示为了获得最大回报, 当状态为s智能体选择行动a的概率; 其中, 状态s
为控制系统部署在多个关键位置的传感器的读数组成的向量, a为控制系统中多个控制单
元的控制量组成的向量;
S2重置强化学习环境;
S3在每一个时刻t, 智能体根据探索策略πE和行动策略πA的线性组合π=(1 ‑α )πA+α πE产
生行动at, 其中, 权 重α ∈[0,1]表示当前智能体是 更倾向于 探索还更倾向于获得最大回报;
S4在t时刻, 智能体根据当前控制系统的状态st, 在控制系统中执行行动at, 得到回报
rt, 控制系统的状态变为st+1, 将(st,at,rt,st+1)加入到训练数据集D中, 所述r反映了所述控
制系统正确执 行给定任务的程度;
S5用训练数据集D, 采用强化学习方法训练并更新行动策略πA的参数θA;
S6在训练数据集D中采样用于训练探索策略πE的子集DE, 根据训练样本子集DE, 计算最
大熵投影矩阵, 训练并更新探索策略πE;
S7检查收敛 条件, 如果 不收敛则返回S3, 否则结束。
2.如权利要求1所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所述步
骤S6具体包括:
S6‑1在训练数据集D中随机采样n个训练样本, 形成用于训练探索策略πE的子集DE=
{(si,ai,ri,si+1)|i=1,2,...,n},其中(si,ai,ri,si+1)为DE中的一个训练样本;
S6‑2将DE={(si,ai,ri,si+1)|i=1,2,...,n}所有训练样本包含的当前状态向量{si}组
成状态向量矩阵Sm×n, 其中S的第i列是状态向量si, S的行数m与状态向量si的维数相同;
S6‑3最大化下式得到最大熵投影矩阵p*k×n,
其中S'=pS是投
影后的状态矩阵, pk×m是投影矩阵, S'中的每一列即为经投影矩阵p投影后的状态向量,
是对S'按行求均值得到的矩阵;
S6‑4经过最佳投影矩阵p*投影后的状态矩阵S*=p* ·S中的每一列 为投影后的状态向
量, 统计这些列向量在投影后的状态矩阵S *中出现的次数, 找到出现次数最少的列向量, 其
下标记为i*, 取状态向量矩阵S*中的第i*列为探索目标状态sg;
S6‑5构造新的用于训练探索策略的训练数据D'E={(si,ai,r'i,si+1)|i=1,2,...,n },
其中训练样本中的当前状态si、 动作ai、 下一时刻状态si+1与DE={(si,ai,ri,si+1)|i=1,
2,...,n}中的相同, 训练样本中的回报r'i设置方法如下:
S6‑6用新的训练数据D'E, 采用强化学习方法训练并更新探索策略πE。
3.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 步
骤S1中, 对探索策略πE(a|s, θE)参数θE和行动策略πA(a|s, θA)参数θA初始化的方法是生成
(0,1)区间的均匀分布的随机数。权 利 要 求 书 1/2 页
2
CN 115526335 A
24.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述步骤S2具体为: 对 控制系统进行初始化, 使其回到初始状态。
5.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述步骤S5中的强化学习方法包括SAC(Soft Actor‑Critic, 软演员评论家算法), 或者PPO
(Proximal Policy Optimizati on, 近端策略优化 算法)。
6.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述步骤S7中的收敛 条件为: 迭代次数达 到设定的最大值。
7.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述步骤S7中的收敛 条件为: 获得的平均累积回报的均方差小于预设值。
8.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述控制系统中的控制单 元为电动机或继电器。
9.如权利要求1或2所述的基于最大熵投影的控制系统强化学习方法, 其特征在于, 所
述控制系统需要完成的任务 为: 保持某种运动状态, 或者按照给定 轨迹移动。
10.一种基于最大熵投影的控制系统强化学习装置, 其特 征在于:
包括至少一个处理器和存储器, 所述至少一个处理器和存储器之间通过数据总线连
接, 所述存储器存储能被所述至少一个处理器执行 的指令, 所述指令在被所述处理器执行
后, 用于完成权利要求1 ‑9中任一项所述的基于最大熵投影的控制系统强化学习方法。权 利 要 求 书 2/2 页
3
CN 115526335 A
3
专利 基于最大熵投影的控制系统强化学习方法和装置
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:58上传分享