本文发表于《指挥信息系统与技术》2023年第1期
作者:易侃,徐欣
引用格式:易侃,徐欣. 开源情报可信分析系统的关键模型与技术[J]. 指挥信息系统与技术, 2023,14(1):48-56.
(资料图)
摘要
深度伪造技术的快速发展给情报分析带来了威胁与挑战,以假乱真的虚假情报信息会给指挥决策带来严重干扰。然而,传统可信分析技术通常仅能识别已知、特定的伪造类型信息,难以应对快速发展的深度伪造技术。针对上述问题,创新式开展了基于多模态关联印证的情报可信分析机理研究,提出了面向深度伪造的情报可信分析框架与多模态情报信息关联印证机制,结合俄乌冲突情报可信分析给出了应用案例示范。结果表明,该项分析机理有利于提升检测未知、新型深度伪造情报的准确性与鲁棒性。
引言
随着人工智能(AI)技术的发展,AI能辅助指挥员更高效、准确地处理海量信息,但在对抗过程中以深度伪造为代表的AI技术也将带来大量假情报,严重混淆视听。
深度伪造给文本、图像和视频等多模态情报信息带来了噪声,也给指挥员决策带来了认知困境,甚至导致战机延误。强对抗条件下,一旦强敌通过各种新手段制造大量逼真虚假情报,传统情报可信分析方法将无法及时判定情报可信度。情报综合处理如采用虚假情报将得出错误结果,导致指挥员做出错误的情况研判。深度伪造技术完全有可能收集对方作战指挥官的信息,通过深度伪造技术使之“说己方想说的话、干己方想干的事”,从而达到打击对手国民士气、扰乱其指挥与控制、挫败其对抗决心的目的。
目前,传统信息可信分析技术主要根据统计特征进行可信检测,如图像篡改区域与源区域的噪声不一致性、文本单词概率分布等,仅能识别已知、特定的伪造类型信息,难以识别未知伪造类型、不断升级换代的假情报。针对深度伪造带来的挑战,本文从语义关联印证层面对情报开展可信分析机理研究,提升深度伪造情报检测的准确性与鲁棒性。
1深度伪造概念与威胁
1.1 深度伪造概念
深度伪造(deepfake)是个合成词,具体包括“深度学习”(deep learning)和“造假”(fake)2层意思。
深度伪造技术基本原理:在搜集伪造目标的文本、图像、视频及其他多模态信息基础上,通过深度学习等AI工具进行训练,生成伪造目标的虚假多模态信息。多模态深度伪造原理如图1所示。
同传统作战样式相比,深度伪造对抗形式是隐性的,不容易被发现,几乎不分和平与战争时期,作战效果丝毫不容低估,其产生的威力可能不亚于大规模杀伤性武器。
图1 多模态深度伪造原理
1.2 深度伪造威胁
随着人工智能等技术不断进步,敌方也可能越来越多地利用深度伪造技术来伪造虚假情报信息,以达到误导、干扰作战指挥以及削弱对手作战决心的目的。
1) 传播虚假宣传信息,削弱作战决心。在公众媒体上,深度伪造能够通过AI换脸和语音合成技术,以重要领导人的名义在社交、生活和工作圈宣传其从未授意过的虚假演说、指令和政策立场等信息,从而达到削弱作战决心和战斗意志的目的。
2) 伪造虚假内部情报,干扰指挥决策。在部队内部,深度伪造技术还能合成假音频、假视频或假文件投送至部队内部,在信息封锁情况下会极大考验指挥员的判断能力,并增加指挥员出错概率,在军中造成混乱,以致决策错误或延误最佳时机。
由此可见,深度伪造给作战指挥带来重大威胁与风险,亟需开展应对深度伪造的情报可信分析研究。美军已在《2021美国人工智能国家安全委员会报告》表示将深入开展AI伪造信息检测研究。
2深度伪造检测研究现状
根据检测特征及手段方式,深度伪造检测技术可归纳为以统计分析为特征的被动式检测、以数字安全为特征的主动防御式检测与大样本深度学习式检测3类。然而,这3类检测技术均难以应对深度伪造技术的快速发展。
2.1 以统计分析为特征的被动式检测
深度伪造图像与视频的传统检测方法大多属于以统计分析为特征的被动式检测。
深度伪造图像的检测主要以边缘特征检测为主。计算机对图像进行网格划分与瑕疵识别后,可识别出不符合统计规律的边缘特征,从而判断图像是否经过修改。2003年,Fridrich等提出了一种对图像进行块分割的方法来进行图像复制-粘贴检测,成为传统图像块检测的经典算法。
深度伪造视频的检测方法可分为基于帧间时间特性的方法和基于帧内视觉效果的方法2种。基于帧间时间特性的方法主要利用视频内人眨眼频率、嘴型等时间相关的统计特性进行检测。基于帧内视觉效果的方法则利用图像边缘的瑕疵以及眼睛颜色、五官位置、面部阴影和头部姿态等不自然的细节进行检测。
然而,当伪造技术更新换代快、新型伪造类型对应样本不可知时,以统计分析为特征的被动式检测方法难以发挥作用。
2.2 以数字安全为特征的主动防御式检测
在原始图像或视频中嵌入数字水印或使用可追溯、不可篡改的区块链均属于主动防御式检测。1994年,Schyndel首次定义了数字水印的概念,并提出了在图像中嵌入人眼不可见的加密信息技术,开启了主动防御式检测的篇章。
主动防御式检测具有较好通用性,但需大量预处理。当应用于情报分析时,以数字安全为特征的主动防御式检测预处理繁琐、管理成本较高,检测周期长,难以保障情报可信分析的高时效性。
2.3 大样本深度学习式检测
大样本深度学习式检测方法针对真实与伪造的大量样本进行训练,学习出区分伪造样本与真实样本的模态数据映射特征与规律,以此为依据来综合判断媒体信息的真伪。2017年,Nicolas Rahmouni等首次采用深度卷积网络对生成对抗网络(GAN)生成的篡改图像进行鉴别。
然而,大样本深度学习对样本的数量与质量要求很高,复杂对抗环境下情报质量与数量难以满足要求。
瞬息万变的复杂对抗环境下,情报信息的伪造类型千变万化、伪造手段更为隐蔽,亟需从机理层面深入开展应对深度伪造的情报可信分析研究。
3基于多模态关联印证的情报可信分析机理
针对深度伪造技术升级更新换代快而检测手段难以应对的问题,本文创新提出一种基于多模态关联印证的情报可信分析机理。“说一个谎容易,圆这个谎很难”。深度伪造技术难以确保文本、图像与视频信息及其内部元素的语义一致性。因此,在语义层面通过多方情报信息交叉印证来进行可信分析,能够克服传统可信分析技术从模态特征层面仅能识别已知、特定伪造类型信息的局限性,有利于提升情报可信分析的准确性与鲁棒性。
基于多模态关联印证的情报可信分析机理包括情报可信分析框架与多模态情报信息关联印证机制。其中,情报可信分析框架为多模态情报的关联印证奠定了理论基础,多模态情报信息关联印证机制则提供了情报可信度的量化评估思路。
3.1 情报可信分析框架
本文提出的情报可信分析框架以AI深度伪造机制为支撑、多模态知识图谱为理论依据,从信息源、信息模态与信息内容3个维度分别提取出情报信息的元特征、模态特征和语义特征,采用主客观相结合的方法对情报可信度进行分析评估。
传统信息可信分析方法将信息来源与传播渠道等元特征作为信息可信度分析的主要依据,当前以被动式检测与大样本深度学习式检测为代表的深度伪造检测技术以模态特征作为信息伪造检测依据。2种方法均难以应对未知、新型的深度伪造。因此,本文提出的情报可信分析框架在此基础上增加了语义特征可信分析,以增强未知、新型深度伪造的检测能力。情报可信分析框架如图2所示。
图2 情报可信分析框架
1) 元特征层
在元特征层,从情报信息源与传播渠道进行可信分析。情报信息源的可信分析指标包括情报信息源的可靠性、权威性与用户认可度;而传播渠道的可信分析指标包括信息传播的及时性、完整性与专业性。
情报信息源主要分为公开、封闭与特殊3类。公开信息源及其传播途径的可信分析可以用户客观反馈为主,如根据公开发布的信息源排名进行可靠性评估,根据谷歌搜索排序进行权威性衡量,根据用户评论中正面评论所占比例进行认可度估计。封闭与特殊信息源及其传播途径的可信分析可以主观赋权为主,如雷达站的可靠性、权威性与用户评论可由领域专家直接打分赋权或采用层次分析法计算。
2) 模态特征层
在模态特征层,多模态情报信息的可信分析特征包括共有的时效性特征与各模态特有的可信分析特征2类。
时效性特征是多模态情报信息共有的可信分析特征,用于分析多模态情报信息在特定时间内对于决策支撑是否有效。领域知识类文本情报具有较长时效性,而目标动向类情报具有较短时效性。
不同模态情报信息的可信分析特征各有不同。雷达与电子对抗(电抗)报文主要体现在报文的规范性与完整性;图像与视频情报主要体现在是否存在篡改痕迹与时序一致性;文本情报则主要体现在语法逻辑性。a) 雷达与电抗报文的规范性、完整性分析指对报文数据块、数据种类、数据字段、数据项、数据记录与数据项目录等条目的规范性和完整性分析;b) 图像/视频的篡改痕迹包括合成过程中引入的特定颜色或形状上的伪影、对抗生成器指纹、异常边缘纹理信息以及基于深度神经网络提取出的深度学习检测特征等,其时序一致性指图像间、视频帧间在时域上的一致性;c) 文本情报的语法逻辑性具体包括词袋、词性、句法、段落与篇章的逻辑性。
3) 语义特征层
在语义特征层,从语义查证与关联印证2方面来分析情报信息的可信度。语义查证通过比较情报信息与领域知识、知识图谱及可信事实描述模型间的语义一致性,进而综合分析该情报信息的可信度。语义关联印证则基于多模态知识图谱的情报语义空间对跨模态情报信息进行语义提取与映射,从实体、事件与意图3个层次计算两两跨模态情报信息间的关联度,再量化计算出情报信息可信度。
综上,元特征与模态特征层面的可信分析根据对已知伪造类型的大样本学习与统计分析出的伪造规律进行评估,深度伪造算法仅需增加少量资源、使得情报信息符合相应的统计规则便可绕过检测。语义特征层面的语义查证与关联印证则要求深度伪造算法必须确保每个语义细节正确,这极大增加了情报信息的伪造难度,增强了可信分析的鲁棒性。
3.2 多模态情报关联印证机制
以多模态知识图谱、多模态表示学习与多模态对齐理论为依据,本文针对多模态情报语义表征不一致、相互印证困难的问题,在完成元特征与模态特征可信分析后,基于多模态知识图谱的情报语义空间开展雷达、电抗、文本与图像情报等多模态情报信息的语义要素提取、映射及基于关联印证的可信度计算。
3.2.1 基于多模态知识图谱的情报语义空间构建
基于多模态知识图谱,构建由实体层、事件层与意图层组成的多层级情报语义空间,支撑多模态情报信息的语义映射。基于多模态知识图谱的多层级情报语义空间如图3所示。
图3 基于多模态知识图谱的多层级情报语义空间
3.2.2 基于多模态知识图谱的情报语义映射
2) 多模态情报语义映射
多模态情报语义映射指基于构建的多模态实体映射函数,采用模板规则、机器学习、深度学习与知识推理等关键技术从多模态情报信息中提取时间、空间、实体、行为、事件与意图等语义要素信息,分别映射到实体层、事件层与意图层。多模态情报信息的语义要素提取与映射如图4所示。
多模态情报语义映射基于实体、事件与意图层表示,能够实现文本、图像、雷达与电抗等多模态情报信息的统一表征,进而支撑多模态情报信息的关联印证。
图4 多模态情报信息的语义要素提取与映射
3.2.3 基于关联印证的跨模态可信度计算
针对如何基于语义一致性计算可信度问题,采用同模态情报信息间语义关联查证与跨模态情报信息间语义关联印证相结合的方法,实现情报信息可信度的量化计算。
跨模态情报信息间语义关联印证从实体、事件与意图等多个层次分别展开,以跨模态情报信息间的关联度为依据计算情报信息的可信度。
1) 关联度计算
4案例示范
本文基于多模态关联印证的情报可信分析机理结合俄乌冲突情报可信分析案例与跨模态情报可信分析案例进行示范。
4.1 俄乌冲突情报可信分析
表1 俄乌冲突情报信息
图5 俄乌冲突情报可信分析案例
4.2 跨模态情报可信分析
表2 跨模态情报信息的语义要素提取结果
表3 跨模态情报可信分析结果
本案例侧重于说明基于多模态关联印证的情报可信分析机理,在实际应用中情报来源复杂、数目海量,具体采用的模型与算法需按需调整。
5结束语
在强对抗环境下,AI产生大量虚假信息,成本低、真假难辨,当前系统难以及时、准确地确定其可信性,使得虚假情报信息进入处理环节,易导致错误的情况研判结论。基于多模态关联印证的情报可信分析适应性强、应用范围广,有利于提升检测未知类型、新型深度伪造情报的准确性与鲁棒性。可信的情报及情报产品将进一步保障清晰的态势研判、高效的作战筹划与精准的火力打击。深度伪造技术与情报可信分析技术将在不断竞争对抗中快速发展,如何基于多模态情报信息进行精细化的语义建模与语义关联,将成为基于多模态关联印证的情报可信分析关键点。
相关文献推荐:
王昊奋,易侃,吴蔚,等. 多模态态势感知的知识表示、表示学习和知识推理[J]. 指挥信息系统与技术,2022,13(3):1-11.
阮国庆,易侃,孙家栋,等.智能战场感知技术研究现状与发展趋势[J].指挥信息系统与技术,2022,13(3):17-22.
李子,李亚钊. 美军防空反导作战中的战场情报准备[J]. 指挥信息系统与技术,2022,13(3):23-27.
郭文强,张志政. 基于多模型融合的开源情报文本分类方法[J]. 指挥信息系统与技术,2022,13(3):44-51.
刘科. 认知技术在战场态势感知中的应用[J]. 指挥信息系统与技术,2021,12(3):13-18.
王适之,黄志良,申远,等. 军事情报智能推荐算法综述[J]. 指挥信息系统与技术,2021,12(2):7-15.
张慧,张骁雄,丁鲲,等. 美军智能数据情报KAIROS 项目分析[J]. 指挥信息系统与技术,2021,12(1):45-49.
李亚钊,程浚,阚凌志,等. 基于主成分分析法的可组合情报生成技术[J]. 指挥信息系统与技术,2020,11(6):42-46.
易侃,王菁,崔隽,等. 新一代指挥信息系统的知识中心原型构想[J]. 指挥信息系统与技术,2020,11(3):10-16.
潘泉,胡玉梅,马季容. 基于变分贝叶斯联合优化的情报监视与侦察[J]. 指挥信息系统与技术,2020,11(2):1-8.
标签: