谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险

谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险

9 月 22 日消息,谷歌 DeepMind 宣布更新核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。当前,一些新 AI 模型在测试中已展现出能制定计划、甚至用欺骗手段达成目标的能力。新版前沿安全框架增加了一个新的“说服力”类别,旨在应对可能强大到足以改变用户信念的模型。谷歌将此风险称作“有害操控”,即 AI 模型具备强大的操控能力,且可能被滥用,在特定高风险场景中系统且显著地改变人们的信念和行为。

针对如何防范这种风险,谷歌 DeepMind 代表对 Axios 表示:“我们持续追踪这一能力,并开发了全新的评估体系,其中包括人类参与的实验,用于测量和测试相关能力。”(IT 之家)

本文来自投稿,不代表DEVCN立场,如若转载,请注明出处:https://devcn.xin/6029.html

(0)
网站编辑网站编辑认证
上一篇 2025年9月23日 上午11:49
下一篇 2025年9月23日 上午11:51

相关新闻