说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211121828.3 (22)申请日 2022.09.15 (71)申请人 中国科学技术大学 地址 230041 安徽省合肥市金寨路96号 (72)发明人 阚震 章可易 李保罗 李智军  (74)专利代理 机构 上海段和段律师事务所 31334 专利代理师 祁春倪 (51)Int.Cl. G05B 13/04(2006.01) G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称 基于时序逻辑的安全强化学习方法及系统 (57)摘要 本发明提供一种基于时序逻辑的安全强化 学习方法及系统, 涉及安全强化学习技术领域, 包括: 步骤S1: 构建马尔可夫决策过程MDP, 用LT L 描述智能体的复杂任务; 步骤S2: 构建有多接受 集的tLDGB A, 并通过接受边界函数构建ctLDGB A; 步骤S3: 构建乘积MDP用于强化学习搜索最优策 略并基于LTL对安全性的描述和MDP的观测函数 构建安全 博弈, 设计安全盾机制保证系统在学习 过程中的安全性。 本发明能够获得最大化LTL任 务完成概率的最优策略且保证学习过程中的安 全性。 权利要求书4页 说明书7页 附图2页 CN 115390455 A 2022.11.25 CN 115390455 A 1.一种基于时序逻辑的安全强化学习方法, 其特 征在于, 包括: 步骤S1: 构建马尔可 夫决策过程MDP, 用LTL描述智能体的复杂任务; 步骤S2: 构建有 多接受集的tLDGBA, 并通过接受边界函数构建ctLDGBA; 步骤S3: 构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的 观测函数构建安全博 弈, 设计安全盾机制保证系统在学习过程中的安全性。 2.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S1 包括: 马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示; 其中, S是有限状态集; A是有限 动作集; P:S ×A×S→[0,1]是状态转移概率函数; s0∈S是初始状态; AP是有限原子命题集; L:S→2AP是标签函数; 记状态s处的可行动作集为 对任意状态s∈ S, 若有a∈A(S),则∑s′∈SP(s,a,s′)=1; 否则∑s′∈SP(s,a,s′)=0; MDP上的确定性策略π定义为π ∶S*→A; 其中, S*表示全部有限路径的集合; 无记忆确定性 策略为 π( σ [ :n])= π( σ [n]), a∈A( σ [n])。 3.根据权利要求2所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S1 还包括: LTL公式由布尔 真值True、 原子命题 a∈AP、 合取∧、 非 接下来〇和直到∪递归地 构成, 具体 语法如下: 4.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S2 包括: 称为tLDGBA, 若tGBA的输入字母表扩充为Σ=2AP∪{∈},且 其状态集被划分为互不相交的两个集 合:Q=QI∪QD, 使得: 给定 其对应的ctLDGBA为 其中, 是増广状态集; 是初始状态; T是接受边界集, 记录未被访问的接受 集, 初始化 为F并且由接受边界函数 更新: 新的转移函数定义 为 其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等权 利 要 求 书 1/4 页 2 CN 115390455 A 2于i, 若在接受边界集T更新之后Fi是T的首个 集合, 即: v_ next(v,q,T)=i,Fi=T[0]; v_ next (v,q,T)被重 置为0, 若 新 的 接 受 条 件 变 为 5.根据权利要求1所述的基于时序逻辑的安全强化学习方法, 其特征在于, 所述步骤S3 包括: 将MDP和ctLDGBA融合为乘积MDP, 用于强化学习搜索最优策略: 给定MDPM=(S,A,P,s0, AP,L)和 乘积MDP定义为 其中, 是乘积状态集; A×=A∪A∈, 是动 作集; 是初始状态; 乘积MD P的状态转移概 率函数定义 为: δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集; 是 接 受 条件。 6.一种基于时序逻辑的安全强化学习 系统, 其特 征在于, 包括: 模块M1: 构建马尔可 夫决策过程MDP, 用LTL描述智能体的复杂任务; 模块M2: 构建有 多接受集的tLDGBA, 并通过接受边界函数构建ctLDGBA; 模块M3: 构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的 观测函数构建安全博 弈, 设计安全盾机制保证系统在学习过程中的安全性。 7.根据权利要求6所述的基于时序逻辑的安全强化学习系统, 其特征在于, 所述模块M1 包括: 马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示; 其中, S是有限状态集; A是有限 动作集; P:S ×A×S→[0,1]是状态转移概率函数; s0∈S是初始状态; AP是有限原子命题集; L:S→2AP是标签函数; 记状态s处的可行动作集为 对任意状态s∈ S, 若有a∈A(S),则∑s′∈SP(s,a,s′)=1; 否则∑s′∈SP(s,a,s′)=0; MDP上的确定性策略π定义为π ∶S*→A; 其中, S*表示全部有限路径的集合; 无记忆确定性 策略为 8.根据权利要求7所述的基于时序逻辑的安全强化学习系统, 其特征在于, 所述模块M1 还包括: LTL公式由布尔真值True、 原子命题a∈AP、 合取∧、 非 、 接下来〇和直到∪递归地 构成, 具体 语法如下: 权 利 要 求 书 2/4 页 3 CN 115390455 A 3

.PDF文档 专利 基于时序逻辑的安全强化学习方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时序逻辑的安全强化学习方法及系统 第 1 页 专利 基于时序逻辑的安全强化学习方法及系统 第 2 页 专利 基于时序逻辑的安全强化学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:12:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。