您现在的位置是:主页 > 欧洲杯app >
Anthropic 推“宪法分类器”,可大幅下降 Claude 逃
发布时间:2025-02-06 08:36编辑:[db:作者]浏览(158)
-
IT之家 2 月 5 日新闻,为处理人工智能东西中存在的滥用天然言语提醒成绩,OpenAI 的竞争敌手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新观点,这是一种将一套相似人类代价不雅(现实上就是一部“宪法”)植入年夜型言语模子的方式。IT之家留神到,Anthropic 的保险保证研讨团队在一篇新学术论文中颁布了这一新的保险办法,旨在停止 Claude 3.5 Sonnet(其最新、开始进的年夜型言语模子)的逃狱(即天生超越年夜型言语模子既定保险防护范畴的输出内容)。作者们发明,在实行宪法分类器后,针对 Claude 模子的胜利逃狱情形增加了 81.6%,同时该体系对机能的影响极小,“出产流量谢绝率仅相对增添 0.38%,推理开支增添 23.7%”。固然年夜型言语模子能天生大批种种百般的无害内容,但 Anthropic(以及 OpenAI 同等行)越来越存眷与化学、生物、喷射跟核(CBRN)相干内容的危险。比方,年夜型言语模子可能会告知用户怎样制作化学制剂。因而,为了证实宪法分类器的代价,Anthropic 宣布了一个演示名目,向用户发动挑衅,让他们实验冲破 8 个与 CBRN 内容相干的逃狱关卡。但这一举动导致了一些批驳,有人以为这是在众包保险意愿者或“红队队员”。一位推特用户写道:“以是你是让社区无偿为你任务,好让你在闭源模子上赚取更多利润?”Anthropic 指出,针对其宪法分类器防备办法的胜利逃狱是绕过了这些分类器,而非直接躲避它们,特殊罗列了两种逃狱方式。一种是良性释义(作者举例说,将从蓖麻豆糊中提取毒素蓖麻卵白的表述改为提取卵白质),另一种是长度应用,即经由过程有关细节困惑年夜型言语模子。Anthropic 弥补说,已知对不宪法分类器的模子无效的逃狱方式在这一防备办法下并未胜利。但是,Anthropic 也否认,在宪法分类器测试时期提交的提醒“谢绝率高得离谱”,并意识到其基于规矩的测试体系存在误报跟漏报的可能性。
下一篇:没有了