公共安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
1DT 世界数字技术学院(WDTA) 大型语言模型安全测试方法 世界数字技术学院标准 WDTA AI-STR-02 版本:2024-04 ?WDTA2024-保留所有权利。 世界数字技术标准WDTAAI-STR-02被指定为WDTA规范。本文档是世界数字技术研究 院(WDTA)的财产,受国际版权法保护。未经WDTA事先书面许可,禁止对本文件进行 任何使用,包括复制、修改、分发或再版。WDTA不对本文档中的任何错误或遗漏负责 0 如需了解更多WDTA标准和相关出版物,请访问https://wdtacademy.orgL。 版本历史* 版本 日期 变化 标准 ID WDTA AI-STR-02 1.0 2024-04 首次发布 前言 由世界数字技术研究院(WDTA)开发并发布的"大型语言模型安全性测试方法"代表了我们 在持续致力于确保负责任地安全使用人工智能技术方面取得的重要进展。随着人工智能系统, 尤其是大型语言模型,在社会各个方面的应用日益广泛,制定一项全面的标准来应对其安全挑 战已成为当务之急。该标准是WDTA的人工智能STR(安全、信任、责任)计划的组成部分 ,专门用于解决大型语言模型固有的复杂性,并提供严格的评估指标和程序,以测试其抵御对 抗性攻击的能力。 本标准文件为评估大型语言模型(LLM)抵御对抗性攻击的能力提供了一个框架。该框架适 用于LLM在各种攻击分类中的测试和验证,包括L1随机攻击、L2盲盒攻击、L3黑盒攻击和 L4白盒攻击。用于评估这些攻击有效性的关键指标包括攻击成功率(R)和下降率(D)。本文件 概述了各种攻击方法,如指令劫持和提示屏蔽,以全面测试LLM对不同类型对抗技术的抵抗 能力。本标准文件中详述的测试程序旨在建立一种结构化方法,用于评估LLM对对抗性攻击 的稳健性,使开发人员和组织能够识别和减少潜在漏洞,并最终提高使用LLM构建的人工智 能系统的安全性和可靠性。 通过建立"大语言模型安全测试方法",WDTA试图引领创建一个数字生态系统,在这个生态 系统中,人工智能系统不仅先进,而且安全、符合道德规范。它象征着我们致力于实现这样一 个未来:在开发数字技术时,我们能够敏锐地意识到其社会影响,并利用这些技术为所有人谋 取更大的利益。 WDTA执行主席
2024大语言模型安全性测试方法
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2025-02-21 13:39:29
上传分享
举报
下载
原文档
(5.6 MB)
分享
友情链接
中兴 通讯数据中心液冷技术白皮书 2022 .pdf
GB-T 13725-2019 建立术语数据库的一般原则与方法.pdf
DB14-T 2984—2024 电子政务外网 接入规范 山西省.pdf
关于加快推进国有企业数字化转型工作的通知.pdf
奇安信 2022医疗卫生行业网络安全分析报告.pdf
专利 一种电源芯片质量检测方法及系统.PDF
专利 基于有限元仿真的SiP芯片封装分层寿命预测方法.PDF
奇安信 中国政企机构数据安全风险研究报告.pdf
数据出境管理办法.pdf
DB63-T 2064-2022 草原损害程度评定技术规范 青海省.pdf
DB65-T 4536.1—2022 电子政务外网建设规范第1部分:网络架构 新疆维吾尔自治区.pdf
T-CESA 1101—2020 信息技术服务 治理 安全审计.pdf
GB-T 18837-2015 多联式空调 热泵 机组.pdf
GB-T 15852.3-2019 信息技术 安全技术 消息鉴别码 第3部分:采用泛杂凑函数的机制.pdf
DB51-T 2917-2022 县域智慧旅游城市建设指南 四川省.pdf
GB-T 38634.1-2020 系统与软件工程 软件测试 第1部分:概念和定义.pdf
T-CESA 1045—2019 智能音箱技术规范.pdf
GBT 40861-2021 汽车信息安全通用技术要求.pdf
GB-T 20834-2014 发电电动机基本技术条件.pdf
GB-T 14986.4-2018 软磁合金 第4部分:铁铬合金.pdf
1
/
3
32
评价文档
赞助2元 点击下载(5.6 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。