公共安全标准网
1DT 世界数字技术学院(WDTA) 大型语言模型安全测试方法 世界数字技术学院标准 WDTA AI-STR-02 版本:2024-04 ?WDTA2024-保留所有权利。 世界数字技术标准WDTAAI-STR-02被指定为WDTA规范。本文档是世界数字技术研究 院(WDTA)的财产,受国际版权法保护。未经WDTA事先书面许可,禁止对本文件进行 任何使用,包括复制、修改、分发或再版。WDTA不对本文档中的任何错误或遗漏负责 0 如需了解更多WDTA标准和相关出版物,请访问https://wdtacademy.orgL。 版本历史* 版本 日期 变化 标准 ID WDTA AI-STR-02 1.0 2024-04 首次发布 前言 由世界数字技术研究院(WDTA)开发并发布的"大型语言模型安全性测试方法"代表了我们 在持续致力于确保负责任地安全使用人工智能技术方面取得的重要进展。随着人工智能系统, 尤其是大型语言模型,在社会各个方面的应用日益广泛,制定一项全面的标准来应对其安全挑 战已成为当务之急。该标准是WDTA的人工智能STR(安全、信任、责任)计划的组成部分 ,专门用于解决大型语言模型固有的复杂性,并提供严格的评估指标和程序,以测试其抵御对 抗性攻击的能力。 本标准文件为评估大型语言模型(LLM)抵御对抗性攻击的能力提供了一个框架。该框架适 用于LLM在各种攻击分类中的测试和验证,包括L1随机攻击、L2盲盒攻击、L3黑盒攻击和 L4白盒攻击。用于评估这些攻击有效性的关键指标包括攻击成功率(R)和下降率(D)。本文件 概述了各种攻击方法,如指令劫持和提示屏蔽,以全面测试LLM对不同类型对抗技术的抵抗 能力。本标准文件中详述的测试程序旨在建立一种结构化方法,用于评估LLM对对抗性攻击 的稳健性,使开发人员和组织能够识别和减少潜在漏洞,并最终提高使用LLM构建的人工智 能系统的安全性和可靠性。 通过建立"大语言模型安全测试方法",WDTA试图引领创建一个数字生态系统,在这个生态 系统中,人工智能系统不仅先进,而且安全、符合道德规范。它象征着我们致力于实现这样一 个未来:在开发数字技术时,我们能够敏锐地意识到其社会影响,并利用这些技术为所有人谋 取更大的利益。 WDTA执行主席

.pdf文档 2024大语言模型安全性测试方法

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
2024大语言模型安全性测试方法 第 1 页 2024大语言模型安全性测试方法 第 2 页 2024大语言模型安全性测试方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-02-21 13:39:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。