(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211121828.3
(22)申请日 2022.09.15
(71)申请人 中国科学技术大学
地址 230041 安徽省合肥市金寨路96号
(72)发明人 阚震 章可易 李保罗 李智军
(74)专利代理 机构 上海段和段律师事务所
31334
专利代理师 祁春倪
(51)Int.Cl.
G05B 13/04(2006.01)
G06N 7/00(2006.01)
G06N 20/00(2019.01)
(54)发明名称
基于时序逻辑的安全强化学习方法及系统
(57)摘要
本发明提供一种基于时序逻辑的安全强化
学习方法及系统, 涉及安全强化学习技术领域,
包括: 步骤S1: 构建马尔可夫决策过程MDP, 用LT L
描述智能体的复杂任务; 步骤S2: 构建有多接受
集的tLDGB A, 并通过接受边界函数构建ctLDGB A;
步骤S3: 构建乘积MDP用于强化学习搜索最优策
略并基于LTL对安全性的描述和MDP的观测函数
构建安全 博弈, 设计安全盾机制保证系统在学习
过程中的安全性。 本发明能够获得最大化LTL任
务完成概率的最优策略且保证学习过程中的安
全性。
权利要求书4页 说明书7页 附图2页
CN 115390455 A
2022.11.25
CN 115390455 A
1.一种基于时序逻辑的安全强化学习方法, 其特 征在于, 包括:
步骤S1: 构建马尔可 夫决策过程MDP, 用LTL描述智能体的复杂任务;
步骤S2: 构建有 多接受集的tLDGBA, 并通过接受边界函数构建ctLDGBA;
步骤S3: 构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的
观测函数构建安全博 弈, 设计安全盾机制保证系统在学习过程中的安全性。
2.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S1
包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示; 其中, S是有限状态集; A是有限
动作集; P:S ×A×S→[0,1]是状态转移概率函数; s0∈S是初始状态; AP是有限原子命题集;
L:S→2AP是标签函数;
记状态s处的可行动作集为
对任意状态s∈
S, 若有a∈A(S),则∑s′∈SP(s,a,s′)=1; 否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π ∶S*→A; 其中, S*表示全部有限路径的集合; 无记忆确定性
策略为 π( σ [ :n])= π( σ [n]),
a∈A( σ [n])。
3.根据权利要求2所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S1
还包括: LTL公式由布尔 真值True、 原子命题 a∈AP、 合取∧、 非
接下来〇和直到∪递归地
构成, 具体 语法如下:
4.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S2
包括:
称为tLDGBA, 若tGBA的输入字母表扩充为Σ=2AP∪{∈},且
其状态集被划分为互不相交的两个集 合:Q=QI∪QD,
使得:
给定
其对应的ctLDGBA为
其中,
是増广状态集;
是初始状态; T是接受边界集, 记录未被访问的接受
集, 初始化 为F并且由接受边界函数 更新:
新的转移函数定义 为
其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等权 利 要 求 书 1/4 页
2
CN 115390455 A
2于i, 若在接受边界集T更新之后Fi是T的首个 集合, 即: v_ next(v,q,T)=i,Fi=T[0]; v_ next
(v,q,T)被重 置为0, 若
新 的 接 受 条 件 变 为
5.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S3
包括:
将MDP和ctLDGBA融合为乘积MDP, 用于强化学习搜索最优策略: 给定MDPM=(S,A,P,s0,
AP,L)和
乘积MDP定义为
其中,
是乘积状态集; A×=A∪A∈,
是动
作集;
是初始状态; 乘积MD P的状态转移概 率函数定义 为:
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
是 接 受
条件。
6.一种基于时序逻辑的安全强化学习 系统, 其特 征在于, 包括:
模块M1: 构建马尔可 夫决策过程MDP, 用LTL描述智能体的复杂任务;
模块M2: 构建有 多接受集的tLDGBA, 并通过接受边界函数构建ctLDGBA;
模块M3: 构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的
观测函数构建安全博 弈, 设计安全盾机制保证系统在学习过程中的安全性。
7.根据权利要求6所述的基于时序逻辑的安全强化学习系统, 其特征在于, 所述模块M1
包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示; 其中, S是有限状态集; A是有限
动作集; P:S ×A×S→[0,1]是状态转移概率函数; s0∈S是初始状态; AP是有限原子命题集;
L:S→2AP是标签函数;
记状态s处的可行动作集为
对任意状态s∈
S, 若有a∈A(S),则∑s′∈SP(s,a,s′)=1; 否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π ∶S*→A; 其中, S*表示全部有限路径的集合; 无记忆确定性
策略为
8.根据权利要求7所述的基于时序逻辑的安全强化学习系统, 其特征在于, 所述模块M1
还包括: LTL公式由布尔真值True、 原子命题a∈AP、 合取∧、 非
、 接下来〇和直到∪递归地
构成, 具体 语法如下:
权 利 要 求 书 2/4 页
3
CN 115390455 A
3
专利 基于时序逻辑的安全强化学习方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:57上传分享