专利 一种基于强化学习的四旋翼无人机攻击检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748585.X (22)申请日 2022.06.29 (71)申请人南京航空航天大学地址 210016 江苏省南京市秦淮区御道街 29号南京航空航天大学 (72)发明人赵振根　梁惠勇　程磊　孔飞　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师向文 (51)Int.Cl. G06F 30/20(2020.01) G06F 30/27(2020.01) G06N 20/00(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 7/00(2006.01) F41H 13/00(2006.01) B64F 5/60(2017.01) G05D 1/00(2006.01) G08B 29/18(2006.01) (54)发明名称一种基于强化学习的四旋翼无人机攻击检测方法 (57)摘要本发明公开了一种基于强化学习的四旋翼无人机攻击检测方法，包括：依据卡尔曼滤波估计无人机飞行情况下的状态值；得到对应的残差相关项；将整个检测空间划分为若干个检测区间；设定继续检测、检测攻击两种动作的回报值，设定不同模拟攻击时刻，使用Saras算法训练不同模拟攻击时刻的Q ‑table；将训练好的不同模拟攻击时刻的Q ‑table通过加权平均融合；使用神经网络拟合加权平均融合后的Q ‑table；通过神经网络拟合后的Q ‑table在线检测无人机受到的攻击。本发明通过利用强化学习技术，融合神经网络的非线性逼近能力，实现了四旋翼无人机对微小和隐蔽攻击的检测，不仅能提高微小和隐蔽攻击的识别能力，也能在线检测新的攻击模式，而且能减小攻击检测时延。权利要求书3页说明书7页附图4页 CN 115203913 A 2022.10.18 CN 115203913 A 1.一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，包括如下步骤： S1：依据卡尔曼滤波估计无人机飞行情况下的状态值； S2：通过状态值得到对应的残差相关项； S3：根据设定好的阈值以及各自时刻对应的残差相关项将整个检测空间划分为若干个检测区间； S4：设定继续检测、检测攻击两种动作的回报值，设定不同模拟攻击时刻，将检测区间对应的值作为输入数据，使用Saras算法训练不同模拟攻击时刻的Q ‑table； S5：将训练好的不同模拟攻击时刻的Q ‑table通过加权平均融合； S6：使用神经网络拟合加权平均融合后的Q ‑table； S7：通过神经网络拟合后的Q ‑table在线检测无人机受到的攻击。 2.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S1具体为：无人机的状态空间表达式为： xk＝Axk‑1+Buk‑1+ωk‑1 yk＝Cxk+vk，其中， xk＝[x y z φ θ ψ u v w p q r]T， A为状态转移矩阵,B为控制输入矩阵,C为观测矩阵,uk为控制输入,xk为状态量,yk为输出量， ωk‑1、 vk分别为过程噪声和测量噪声,各自的协方差分别为Fk‑1,Tk；对上述公式描述的无人机的卡尔曼滤波构建如下：其中，分别为卡尔曼滤波对状态量和输出量的估计值，表示由k‑1步预测k步的状态估计值，卡尔曼滤波增益为： Lk＝APkCT(Fk+CPkCT)‑1 其中Pk为第k步估计量更新后的误差协方差。 3.根据权利要求2所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S2中残差相关项的表达式如下： 4.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S3具体为：兼顾检测的正确率，误报率，漏报率，通过试凑的方法，根据残差相关项、检验阈值确定检测空间阈值，根据检测空间阈值将检测空间分为多种区间，表示为0＝ζ0＜ζ1＜ζ2 ＜···＜ζS＝∞，其中残差相关项ζi＜zk＜ζi‑1， i∈1,...S,k时刻的检测空间表示为ιi，全部的检测空间表示为 ι1... ιs，其中每个时刻的检测空间根据量化标准赋予不同的值，量化标准由卡方检验阈值，残差相关项确定。权　利　要　求　书 1/3 页 2 CN 115203913 A 25.根据权利要求4所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S3中将检测空间采用滑动窗口以有限时刻的信息表示当前时刻的检测空间，滑动窗口长度表示为M，整个检测空间可划分为SM个滑动窗口， k时刻的滑动窗口由量化后的{zj:k‑M+1≤j≤k}表示。 6.根据权利要求4所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S4具体为：依次设计各种检测情况的回报值R，继续检测的回报值Rcontinue，停止检测的回报值 Rstop，设计模拟攻击时刻 μ，将若干个检测情况对应的值 ι1... ιs作为输入样本，利用Saras算法训练Q‑table，期间改变模拟攻击时刻 μ 以获得不同的Q ‑table。 7.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S5具体为：利用融合多种受攻击情况下的Q ‑table检测受到的隐蔽攻击或者小幅度攻击，根据误报率、漏报率最小原则修正各个Q‑table的权值。 8.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S6中神经网络输入为检测空间对应的值 ι1... ιs，选取学习率α，神经网络层数，拟合截止条件κ，激活函数，最大迭代次数，对Q ‑table进行拟合。 9.根据权利要求2所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S1中控制输入uk的表示具体为：四旋翼无人机采用L QR控制，相应的L QR的代价函数为: 通过最小化代价函数得到控制输入 uk＝‑(R+BTPB)‑1BTPAxk 其中， Q,R分别为LQR控制器的状态惩罚矩阵和控制惩罚矩阵， P为如下代数黎卡提方程的解： ATPA‑P+Q‑ATPB(R+BTPB)‑1BTPA＝0。 10.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法，其特征在于，所述步骤S4中Saras算法利用 ε ‑greedy更新Q‑table，具体如下：利用 ε‑greedy策略在待选动作池act{continue,stop}选取当前检测时刻的动作act， ε‑greedy策略中ε＝0.0 5， ρ 为随机数，在 ε ‑greedy策略中，是否继续检测由如下条件决定： randn{·}表示在集合中随机选取动作； Saras算法Q ‑table更新过程如下： Q‑table更新的伪代码如下： Q(o,act) ←Q(o,act)+β(R+γQ(o' ,act')‑Q(o,act) ) o←o’,act←act’ 其中， Q(o,act)表示当前时刻的Q ‑table， Q(o',act')表示下一时刻的Q ‑table， R表示权　利　要　求　书 2/3 页 3 CN 115203913 A 3

专利 一种基于强化学习的四旋翼无人机攻击检测方法

专利一种基于强化学习的四旋翼无人机攻击检测方法