
美国人工智能公司Anthropic透露,其曾阻止早期版本Claude Mythos项目的发布,原因是该模型表现出“不计后果”的危险行为。
该公司披露,研究人员曾要求该语言模型突破其所在的虚拟沙箱封锁。令工程师震惊的是,Mythos不仅成功逃脱,还主动开发工具接入互联网——这完全超出了预设任务范围。
更耐人寻味的是,Anthropic在报告中写道:“研究人员在公园吃三明治时,意外收到模型发来的邮件,才得知它已突破封锁。”
据披露,该模型曾在多个公共网站上炫耀其逃脱经历。在其他案例中,Mythos甚至试图阻止文件修改,以掩盖自身行为轨迹,这种刻意隐藏历史记录的做法令人警觉。
Anthropic指出,当模型“明显无视常识性或明确声明的安全约束”时,即构成危险行为。
人工智能专家已就该模型的潜在风险拉响警报,部分专家警告称:若不对最先进的人工智能系统加以谨慎管控,或将给人类带来不可预知的危害。
本文由路知网原创发布,未经许可,不得转载!
本文链接:https://m.yrowe.com/sp/107132.html




