NIST AI 100-2e2023 可信赖和负责任的人工智能 对抗性机器学习 分类和术语

NIST（美国国家标准和技术研究院）可信赖和负责任的人工智能 NISTAI100-2e2023 对抗性机器学习攻击和缓解措施的分类与术语 ApostolVassilev AlinaOprea AlieFordyce HyrumAnderson 这份出版物可通过以下链接免费下载：https://doi.org/10.6028/NIST.AI.100-2e2023 为了详细描述实验程序，本文提及了一些商业和非商业的设备、仪器、软件或材料。但这种提及并不代表 NIST对任何产品或服务的推荐或认可，也不意味着所提及的材料或设备就是完成这一目的的最佳选择。 NIST技术系列政策版权、使用及许可声明 NIST技术系列出版物标识符语法出版历史经NIST编辑审查委员会于2024-01-02批准如何引用本NIST技术系列出版物： VassilevA,OpreaA,FordyceA,AndersonH(2024)对抗性机器学习：攻击和缓解的分类与术语。（美国国家标准与技术研究院，马里兰州盖瑟斯堡）NIST人工智能(AI)报告，NIST可信赖和负责任的人工智能NISTAI100-2e2023。https://doi.org/10.6028/NIST.AI.100-2e2023 NIST作者的ORCID身份识别码 ApostolVassilev:0000-0002-4979-5292 AlinaOprea:0000-0002-9081-3042 提交评论 [email protected] 所有评论都可能根据信息自由法案（FOIA）被公开。摘要这份美国国家标准与技术研究院（NIST）的《可信与负责任的人工智能》报告构建了对抗性机器学习（AML）领域相关概念的分类体系，并对其术语进行了定义。分类法建立在调查 AML文献的基础上，并按概念层次结构排列，其中包括ML方法的关键类型和攻击的生命周期阶段、攻击者的目标和目的以及攻击者的能力和学习过程的知识。该报告还提供了相应的缓解和应对攻击后果的方法，并指出了在人工智能系统生命周期中需要考虑的相关开放性挑战。报告中使用的术语与对抗性机器学习（AML）相关文献保持一致，并配有一个术语表作为补充，该术语表对与人工智能系统安全相关的关键术语进行了定义，旨在帮助非专业读者理解。综合来看，通过建立一种通用语言并增进对快速发展的对抗性机器学习领域的理解，分类体系和术语旨在为评估和管理人工智能系统安全的其他标准及未来实践指南提供参考依据。关键词人工智能；机器学习；攻击分类；规避；数据投毒；隐私泄露；攻击缓解；数据模态；特洛伊攻击，后门攻击；生成模型；大语言模型；聊天机器人。 NIST可信赖和负责任的人工智能报告(NIST可信赖和负责任的人工智能) 美国国家标准与技术研究院（NIST）致力于通过提升测量科学、标准和技术来增强美国的创新能力和工业竞争力，这些努力不仅提高了经济安全，也优化了我们的生活质量。在其众多活动中，NIST在推动可信赖人工智能（AI）的研究、标准制定、评估和数据收集方面做出了显著贡献，以促进AI的发展、应用和可靠性保障。目录受众...........................................................................................................................................................1 背景...........................................................................................................................................................1 如何阅读本文档.......................................................................................................................................2 致谢...........................................................................................................................................................2 1.介绍......................................................................................................................................................5 2.预测性AI分类....................................................................................................................................9 2.1攻击分类...................................................................................................................................9 2.1.1学习阶段.....................................................................................................................10 2.1.2攻击者的目标和目的.................................................................................................11 2.1.3攻击者的能力.............................................................................................................12 2.1.4攻击者知识.................................................................................................................13 2.1.5数据模态...................................................................................................................144 2.2逃避攻击与缓解.....................................................................................................................16 2.2.1白盒逃避攻击..............................................................................................................17 2.2.2黑盒逃避攻击.............................................................................................................21 2.2.3攻击的可转移性.........................................................................................................21 2.2.4缓解措施.....................................................................................................................22 2.3中毒攻击和缓解措施..............................................................................................................24 2.3.1可用性中毒.................................................................................................................25 2.3.2目标中毒...................................................................................................................

NIST AI 100-2e2023 可信赖和负责任的人工智能 对抗性机器学习 分类和术语

NIST AI 100-2e2023 可信赖和负责任的人工智能对抗性机器学习分类和术语