基于前景理论的行为安全博弈 - 职称论文

本文是一篇职称论文，本文基于前景理论在博弈的框架下研究了行为感知概率对网络化系统中攻防资源配置的影响.首先,在理性决策情形下,通过融合物理系统、执行器攻击和资源分配模型,构建了一个新的安全博弈框架.

1引言

网络化系统由于其在实际生活中的广泛应用,如智能电网、网络通信、无人机群等,引起了广泛的关注.由于网络系统信息交互的开放性和复杂性,如何保证网络的安全运行是一个巨大的挑战[1∼3].

现代网络系统的特点是物理层、网络层和决策(人)层组成的层次结构[4].不同类型的安全问题同样显现在这3个层面:在物理层,设备内部的故障会破坏系统的稳定性和性能[5∼9];在网络层,各种网络化攻击,如虚假数据注入[10∼12]、拒绝服务[13,14]和隐身攻击[15],可以通过操纵测量数据和控制输入命令,严重损害系统性能和完整性;在决策层,社会偏好[16]、前景理论[17]等工具表征了人的主观非理性,展示人们往往主观地或者恶意地不选择使系统性能最优的决策.

攻防对抗是研究网络系统安全的一个关键问题.安全博弈用于建模恶意破坏网络系统安全性的攻击者和防御它的个体之间的交互关系,为研究攻防对抗提供一个分析框架.不同类型的安全博弈模型被构建用来解决网络化系统的安全问题.通过建模检测器与被检测的虚假数据注入攻击之间的对抗式交互关系为两人零和博弈设计检测器[18],这与经典的恶意行为检测和识别方法不同.针对物理系统的执行器被损害的情形,零和博弈模型还可以用于设计执行器攻击下攻击方和防御方的最优策略[19].文献[20]利用斯塔克尔伯格博弈还解决了攻防对抗中的资源分配问题.

建立基于人的行为的安全博弈模型是寻求更加切合现实的均衡解的必要过程.攻防过程均是由人操作和参与构成的一种对抗行为,因此研究人的行为对攻防对抗的影响是十分必要的.针对多个防御者协同对抗攻击的情形,具有主观恶意行为的防御者可能会在某一时刻将最优防御策略切换到次优甚至最坏的防御策略从而损害整个系统的性能.此外,人的主观非理性是心理学中一个重要的研究分支,其表征了人在不同场景下由于自身心理活动引起的不合理行为.主观非理性行为在经济博弈论中已经被充分研究.例如,前景理论[17]从实证研究出发,从人的心理特质、行为特征揭示了影响选择行为的非理性心理因素,表征了人具有损失规避和风险偏好的特征.随机动态学习也是基于人的行为建立的一类学习行为,揭示了噪声等因素的影响下,人在学习的过程中具有选择非最优策略的可能性.文献[21,22]基于前景理论初步建立了行为安全博弈模型,探讨了主观非理性对决策过程的影响.

2攻防框架

本节基于图论介绍了网络化系统中从源节点到目标的完整攻击过程,以及执行器攻击对每个节点的破坏细节.进一步给出了攻击和防御预算的分配模型.

2.1攻击图

网络化系统的安全问题可以通过攻击图表征,其描述了攻击者从源节点到目标对一系列脆弱节点进行攻击的过程[22,30].考虑一个有向攻击图G={V,E},其由一组节点V和一组有向边E组成(参见图1).V中的每个节点i代表一个资产,其中它可以从节点j沿着E中的有向边(j,i)被攻击.

在攻击图G中,构建了一个虚拟节点s作为攻击的起始,它不属于网络的一部分,即s∈/V.与s接触的节点k是脆弱的,即沿着可行边(s,k)易被破坏.节点i(i≠s)可以被攻击,前提是与i接触的节点已被成功攻击,即跳板攻击[31].令Pi表示从源节点s到i的有向路径集,其中路径P∈Pi是边{(s,k),...,(j,i)}的集合.如果攻击者沿着一条可行路径P∈Pg成功地妥协了一系列节点,目标g最终可以被攻击.如果攻击在路径P上的任意中间节点上失败,则目标g不能被成功攻击.

2.2执行器攻击

采用具有随机切换信号的线性时不变切换系统描述了执行器攻击破坏节点i的过程:x˙i(t)=Aixi(t)+Bi,δ(t)ui(t),xi(ti,0)=xi0,(1)

其中xi∈Rni表示系统状态,ui∈Rni是系统控制输入,Ai∈Rni×ni和Bi,δ(t)∈Rni×mi是定常矩阵.切换律δ(t):=[0,∞)→N:={1,2}是分段常数且右连续的.模式δ(t)=1表示在t时刻无执行器攻击被激活的子系统1.模式δ(t)=2表示在t时刻执行器攻击下被激活的子系统2.令{ti,k}表示N中k的切换时间序列.切换时刻的状态跳满足xi(ti,k)=αi,δ(t−i,k)xi(t−i,k),xi(t−i,k)=limh→0xi(ti,k−h),(2)

3安全博弈模型和行为安全博弈模型

本节建立了理性攻击者和理性防御者的两人安全博弈模型,在此基础上进一步建立了行为概率加权下的行为安全博弈模型.

3.1安全博弈模型

攻击各个节点的具体过程如下所示.首先通过两个场景说明执行器攻击具有可行时间域的合理性.第一,目标只有进入数据可传输或武器发射范围后才会受到攻击.第二,任务在有限时间内完成.因此,执行器攻击在有限的间隔[t0,T]内发起,才可以破坏任务,其中常数t0代表可行时间域的初始时刻.根据攻击图,所有攻击均遵循时间序列.因此,与源节点s接触的节点1将在[t0,T]的时间间隔内受到攻击.假设攻击在t1,1时发起,并在t1,2时结束,节点1被成功攻破.沿着一条可行路径,接续的节点可以在[t1,2,T]时间间隔内被攻击.通过重复上述过程,可以在[ti−1,2,T]内攻击节点i,其中t0=t0,2 t1,1 t1,2 ··· ti,1 ··· T.

如果无攻击时,系统(1)是稳定的,执行器最终将系统状态驱动到原点.在执行器攻击下,系统的状态(1)可能偏离原点或缓慢收敛到原点.我们定义,如果系统(1)的状态不能在分配的防御预算ψi下最终到达原点,则对节点i的攻击是成功的.否则,节点i是安全的.因此,在节点i中,当且仅当实际代价大于分配的预算,即J˜i>ψi时,攻击是成功的.令Φi:={ti,1|˜Ji(x(t),ti,1,ti,2)>ψi,ti−1,2 ti,1 t¯i,1,¯Ji(x(t),t¯i,1,T)=ωi}表示节点i可被成功攻击的可行时域.定义可行时域的长度为|Φi|.为了计算此范围,我们重新定义Φi:={ti,1|˜Ji(x(t),ti,1,ti,2) ψi,ti−1,2 ti,1 t¯i,1,¯Ji(x(t),t¯i,1,T)=ωi},其中满足J˜i=ψi的有限点对区间长度没有影响.由于在有限预算ωi下,攻击者很难检测到每个节点i的实时状态xi(t),因此其只在时间区间ti,1∈[ti−1,2,T]内随机攻击节点i的执行器.那么,节点i以概率pi=(T−t0−ti−1,2)−1|Φi|(6)

3.2行为安全博弈模型

3.2.1前景理论

前景理论揭示了人具有损失规避和风险偏好的特征,而且通过高估低概率和低估高概率始终错误地感知真实概率[17].更具体地说,人类将真实的概率p∈[0,1]感知为θ(p)∈[0,1],其中θ(·)是一个概率加权函数.一个常用的概率加权函数由Prelec在文献[35]中提出,θ(p)=exp[−(−ln(p))γ],p∈[0,1],(11)

其中参数γ∈(0,1]表示概率敏感的程度.非理性程度随着参数γ的减小而增大,如图2所示.如果γ=1,那么对于任意p∈[0,1],函数θ(p)=p,其表征了理性下的策略更新.接下来,通过将概率加权函数(11)融合到3.1小节建立的安全博弈中来对行为安全博弈建模.

4安全博弈和行为安全博弈中最优配置的存在唯一性

本节分别分析了安全博弈和行为安全博弈中最优配置的存在性,并进一步讨论了它们的唯一性.

4.1安全博弈中最优配置的存在唯一性

首先说明了安全博弈中最优配置的存在性.对于路径P∈Pg,固定分配ωP,在闭区间Θ¯内必然存在分配ψ¯使得收益函数(9)满足R(ωP,¯ψ) R(ωP,ψ).同样地,固定分配ψ,在闭区间Θ内必然存在分配ω¯P使得收益函数(9)满足R(ωP,ψ) R(ω¯P,ψ).综合考虑,必然存在ω¯P和ψ¯,使得收益函数(9)满足R(ωP,¯ψ) R(ω¯P,¯ψ) R(ω¯P,ψ).通过遍历所有路径,我们可以获得Nash均衡(ω∗P∗,ψ∗).

此外,可能存在多个使得期望收益最大化的最优路径.如果攻击者在P1和P2两个不完全重叠的路径上获得的不同收益满足R(ω∗P1,ψ∗)

接下来,我们关注最优分配ω∗P∗和ψ∗在每条最优路径P∗上的唯一性.在证明它之前,首先需要提出保证期望收益函数(9)关于攻防预算分配凹凸性的充要条件.

4.2行为安全博弈中最优配置的存在唯一性

类似于安全博弈,分配(ω¯∗¯P∗,ψ∗)和(ω∗P∗,¯ψ∗)可以通过遍历所有可行路径单独寻找.因此,行为安全博弈的Nash均衡(ω¯∗¯P∗,¯ψ∗)也是存在的.为了在行为安全博弈中寻求最优分配,首先建立了收益函数R¯(ωP,ψ)关于分配ω严格凹和收益函数R˜(ωP,ψ)关于分配ψ严格凸的充要条件.定义f¯i(t0i,1,t0i,2,t1i,1,...,t2h−1i,2,t):=fi(t0i,1,t0i,2,t1i,1,...,t2h−1i,2)+e¯(pi)(∑j∈ΥIj(∇tji,1˜Ji)−1)2(T−t)−1,g¯i(t0i,1,t0i,2,t1i,1,...,t2h−1i,2,t):=gi(t0i,1,t0i,2,t1i,1,...,t2h−1i,2)+e¯(pi)(∑j∈ΥIjH1(tji,2)(∇tji,1˜Ji)−1)2(T−t)−1,其中e¯(pi):=(1−γ¯i)(−ln(pi))−1+γ¯i(−ln(pi)γ¯i−1),e˜(pi):=(1−γ˜i)(−ln(pi))−1+γ˜i(−ln(pi)γ˜i−1).

5案例研究:无人机编队问题

本节利用无人机蜂群验证了所提出的结果.如图3所示,蜂群由6个标记为1,...,6的无人机组成.这些无人机构成了一个分布式网络通信系统,其中每架无人机只与其相邻的无人机通信.假设每架无人机的最大通信距离dmax=2.为了实现最大的通信覆盖,相邻无人机的距离满足dij=dmax=2,j∈Ni.这个蜂群的任务是移动到指定的位置,并再次组成相同的编队.

攻击者的目的是破坏蜂群的通信覆盖.在飞行过程中,通过攻击无人机的执行器使其无法达到指定位置,而与相邻无人机断开链路,则认定攻击是成功的.假定攻击的起始位置为无人机1,终端位置是无人机6.攻击者可以沿不同的路径依次攻击无人机1∼6,使得通信覆盖范围尽可能减少.此外,假设攻击者的能量预算为4,防御方的能量总预算为42,其中分配给每架无人机的初始预算为6.5,以保证其正常移动的能量消耗,剩余防御预算额外分配给部分无人机,使其在受到攻击时能够到达目的地.根据代价函数(3),可知Jˆi(x(t))<6.5.因此在没有攻击的情况下,每架无人机都可以在该分配下到达原点,并重新组成相同的编队.

职称论文参考

攻击需要在有限的时间内进行,以避免无人机到达原点后再次构成编队.为便于计算,假设每个无人机具有相同的可被攻击时域T.令T=5,因此攻击者在[0,5]的时间间隔内持续攻击各个无人机执行器.接下来,两种情况被分别讨论:(i)当6号无人机无法接收到其他无人机的通信时,蜂群固定损失为L;(ii)随着被孤立的无人机数量的增加,蜂群的损失越大.基于这两种情况,分别考虑静态收益和动态收益.

情形一(静态收益):从表1中可以看出,如果攻击者在任意路径上只获得一个常数收益L=103,则攻击者选择最短路径从无人机1攻击到无人机6,即1→2→3→6,1→4→5→6或者1→2→5→6.与其他路径相比,攻击者可以在这些路径上以最大的概率攻击无人机6,并获得最大的期望收益.通过检验,在上述参数下满足条件(17)和(18),因此最优分配是唯一的.其分配方案是将攻击预算平均分配给所选攻击路径上的无人机,并将防御预算平均分配给每架无人机.图4展示了在攻击路径1→2→3→6上无人机的飞行轨迹和无人机6被成功破坏后的编队构型,其中一些相邻无人机之间的距离超过上限2.

情形二(动态收益):如果攻击者随着成功入侵无人机数量的增加而获得更高的收益,则攻击者可能会选择最长的路径以获得最大的预期收益,即使第6架无人机在这条路径上以最低概率被成功入侵.与收益不变的情况相比,表1显示,当在1→2→4→3→5→6路径上收益π(P)=106时,攻击者在该路径上取得的期望收益最大.

职称论文怎么写

6结论

本文通过构造安全博弈研究了网络化系统中的攻防资源分配问题,并利用前景理论建立行为安全博弈进一步讨论了行为感知概率对最优分配的影响,其中行为感知概率不仅可能会降低攻击者的最大期望收益,而且还可能改变最优配置的唯一性.一个有趣的未来研究是设计调控机制,使行为决策者的真实收益恢复到理性情形下的最优水平.

参考文献（略）