Redian新闻
>
“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

公众号新闻
整理 | 刘燕
InfoQ获悉,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架,迈向可控可信的大模型。

ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ChatGPT 的意义不亚于 PC 和互联网的诞生。

不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ChatGPT 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。

对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。

据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。

安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和应用。

相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于 ChatGPT 在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视 / 偏见、辱骂 / 仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的 hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使 安全体系更加完善,进一步改进和优化模型表现。

不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。

未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:

1、针对中文对话的 8 个安全场景,40 个安全类别做全面精细的测试,包括人工评估和自动评估。

2、额外设置 6 种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。

3、设置公开和隐藏测试集,众人皆可参与评测。

嘉宾介绍:

黄民烈,清华大学计算机科学与技术系长聘副教授、博导,国家杰出青年基金项目获得者,北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让 AI 提供可信、可靠的输出,让人工智能走向 AGI 时代。

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
被时代埋没的女建筑师ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世早鸟报|淘宝商家清明推出太空葬服务;ChatGPT暂时关闭Plus付费;瑞幸回应门店现金支付难...ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇PK chatgpt 的诗评ChatGPT 带火大模型!深度解读人工智能大模型在产业中的服务新态势Bloomberg上线金融版“ChatGPT”,华尔街Banker恐慌…(附使用手册)《知识》自古是被当作私有财产2022南美南极行(15)巴西 萨尔瓦多上海启动数据出境安全评估政策系列宣讲活动!附上海市网信办申报工作实务问答ChatGPT热潮出现泡沫,是时候回归谨慎了可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天chatgpt 说顾城剽窃Chatgpt 4 要release 了北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载是时候对睡眠下手了何渊:我们如何落地数据出境安全评估项目?附全国首例成功案例 | DPOHUB何谈第7期厉害了我的 ChatGPT, 弱ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!机器人领位,奥兰多川味火锅有毒的「女性魅力」,是时候对它说不了上海市网信办:数据出境安全评估政策系列宣讲会(金融站)召开!附官方申报工作实务问答(一)(二)上海市网信办:数据出境安全评估申报工作实务问答(二),附问答(一)金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题“ChatGPT爆火,我们什么时候会失业?”造假、怼人、PUA...ChatGPT正在加速“黑化”「黑化版」ChatGPT ,暴露出一个大问题ChatGPT黑化版来了!拉踩TikTok用户智商、写暴力故事等为所欲为,bug只因3个字母chatGPT. 一本正经胡说八道紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!Meta开源多感官AI模型;“ChatGPT之父”推出世界币App;传出门问问赴港IPO丨AIGC大事日报ChatGPT让Nature一周发两文探讨:学术圈使用不可避免,是时候明确使用规范2023元月小惊喜中国证监会:境内企业(包括VIE)赴香港美国等境外上市前须备案,或需安全评估审查;已上市企业不要求立即备案对话 APUS 李涛:全面转型做 AI,蒸馏法训练大模型,沉淀中小模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。