(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748585.X
(22)申请日 2022.06.29
(71)申请人 南京航空航天大 学
地址 210016 江苏省南京市秦淮区御道街
29号南京航空航天大 学
(72)发明人 赵振根 梁惠勇 程磊 孔飞
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 向文
(51)Int.Cl.
G06F 30/20(2020.01)
G06F 30/27(2020.01)
G06N 20/00(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 7/00(2006.01)
F41H 13/00(2006.01)
B64F 5/60(2017.01)
G05D 1/00(2006.01)
G08B 29/18(2006.01)
(54)发明名称
一种基于强化学习的四旋翼无人机攻击检
测方法
(57)摘要
本发明公开了一种基于强化学习的四旋翼
无人机攻击检测方法, 包括: 依据卡尔曼滤波估
计无人机飞行情况下的状态值; 得到对应的残差
相关项; 将整个检测空间划分为若干个检测区
间; 设定继续检测、 检测攻击两种动作的回报值,
设定不同模拟攻击时刻, 使用Saras算法训练不
同模拟攻击时刻的Q ‑table; 将训练好的不同模
拟攻击时刻的Q ‑table通过加权平均融合; 使用
神经网络拟合加权平均融合后的Q ‑table; 通过
神经网络拟合后的Q ‑table在线检测无人机受到
的攻击。 本发明通过利用强化学习技术, 融合神
经网络的非线性逼近能力, 实现了四旋翼无人机
对微小和隐蔽攻击的检测, 不仅能提高微小和隐
蔽攻击的识别能力, 也能在线检测新的攻击模
式, 而且能减小攻击检测时延。
权利要求书3页 说明书7页 附图4页
CN 115203913 A
2022.10.18
CN 115203913 A
1.一种基于强化学习的四旋翼无 人机攻击检测方法, 其特 征在于, 包括如下步骤:
S1: 依据卡尔曼 滤波估计无 人机飞行情况 下的状态值;
S2: 通过状态值得到对应的残差相关项;
S3: 根据设定好的阈值以及各自时刻对应的残差相关项将整个检测空间划分为若干个
检测区间;
S4: 设定继续检测、 检测攻击两种动作的回报值, 设定不同模拟攻击时刻, 将检测区间
对应的值作为输入数据, 使用Saras算法训练不同模拟攻击时刻的Q ‑table;
S5: 将训练好的不同模拟攻击时刻的Q ‑table通过加权平均融合;
S6: 使用神经网络拟合加权平均融合后的Q ‑table;
S7: 通过神经网络拟合后的Q ‑table在线检测无 人机受到的攻击 。
2.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S1具体为:
无人机的状态空间表达式为:
xk=Axk‑1+Buk‑1+ωk‑1
yk=Cxk+vk,
其中, xk=[x y z φ θ ψ u v w p q r]T, A为状态转移矩阵,B为控制输入矩阵,C为观
测矩阵,uk为控制输入,xk为状态量,yk为输出量, ωk‑1、 vk分别为过程噪声和测量噪声,各自
的协方差分别为Fk‑1,Tk;
对上述公式描述的无 人机的卡尔曼 滤波构建如下:
其中,
分别为卡尔曼滤波对状态量和输出量的估计 值,
表示由k‑1步预测k步
的状态估计值, 卡尔曼 滤波增益 为:
Lk=APkCT(Fk+CPkCT)‑1
其中Pk为第k步估计量更新后的误差协方差 。
3.根据权利要求2所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S2中残差相关项的表达式如下:
4.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S3具体为:
兼顾检测的正确率, 误报率, 漏报率, 通过试凑的方法, 根据残差相关项、 检验阈值确定
检测空间阈值, 根据检测空间阈值将检测空间分为多种区间, 表示为0=ζ0<ζ1<ζ2
<···<ζS=∞, 其中残差相关项ζi<zk<ζi‑1, i∈1,...S,k时刻的检测空间表示为ιi,
全部的检测空间表示为 ι1... ιs, 其中每个时刻的检测空间根据量化标准赋予不同的值, 量
化标准由卡方检验阈值, 残差相关项确定 。权 利 要 求 书 1/3 页
2
CN 115203913 A
25.根据权利要求4所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S3中将检测空间采用滑动窗口以有限时刻的信息表示当前时刻的检测空间,
滑动窗口长度表示为M, 整个检测空间可划分为SM个滑动窗口, k时刻的滑动窗口由量化后
的{zj:k‑M+1≤j≤k}表示。
6.根据权利要求4所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S4具体为:
依次设计各种检测情况的回报值R, 继续检测的回报值Rcontinue, 停止检测的回报值
Rstop, 设计模拟攻击时刻 μ, 将若干个检测情况对应的值 ι1... ιs作为输入样本, 利用Saras算
法训练Q‑table, 期间改变模拟攻击时刻 μ 以获得不同的Q ‑table。
7.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S5具体为:
利用融合多种受攻击情况下的Q ‑table检测受到的隐蔽攻击或者小幅度攻击, 根据误
报率、 漏报率 最小原则修 正各个Q‑table的权值。
8.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S6中神经网络输入为检测空间对应的值 ι1... ιs, 选取学习率α, 神经网络层数,
拟合截止条件κ, 激活函数, 最大迭代次数, 对Q ‑table进行拟合。
9.根据权利要求2所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S1中控制输入uk的表示具体为:
四旋翼无 人机采用L QR控制, 相应的L QR的代价 函数为:
通过最小化代价 函数得到控制输入
uk=‑(R+BTPB)‑1BTPAxk
其中, Q,R分别为LQR控制器的状态惩罚矩阵和控制惩罚矩阵, P为如 下代数黎卡提方程
的解: ATPA‑P+Q‑ATPB(R+BTPB)‑1BTPA=0。
10.根据权利要求1所述的一种基于强化学习的四旋翼无人机攻击检测方法, 其特征在
于, 所述步骤S4中Saras算法利用 ε ‑greedy更新Q‑table, 具体如下:
利用 ε‑greedy策略在待选动作池act{continue,stop}选取当前检测时刻的动作act,
ε‑greedy策略中ε=0.0 5, ρ 为随机数, 在 ε ‑greedy策略中, 是否继续检测由如下 条件决定:
randn{·}表示在集 合中随机 选取动作;
Saras算法Q ‑table更新过程如下:
Q‑table更新的伪代码如下:
Q(o,act) ←Q(o,act)+β(R+γQ(o' ,act')‑Q(o,act) )
o←o’,act←act’
其中, Q(o,act)表示当前时刻的Q ‑table, Q(o',act')表示下一时刻的Q ‑table, R表示权 利 要 求 书 2/3 页
3
CN 115203913 A
3
专利 一种基于强化学习的四旋翼无人机攻击检测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:36:18上传分享