AI在测试中_勒索_人类、拒不关机！果真这种事是福是祸？

AI在测试中_勒索_人类、拒不关机！果真这种事是福是祸？

5月28日新闻，当估值高达600亿美元的人工智能首创公司Anthropic宣布新模子，并披露在清静测试中该模子曾试图通过勒索手段阻止被关闭时，我们该怎样界说这样的行为？又当它在另一项测试中饰演“密告者”角色，向有关机构举报自己被用于“不品德用途”，我们又该怎样看待这一幕？

有人称这种行为“令人畏惧”“太猖獗”，社交媒体上则充满着“耸人听闻”“荒唐离奇”的评价。而美国科技记者沙龙·古德曼（Sharon Goldman）给出了另一个要害词：透明。她以为，这种披露体现了应有的透明度，是我们亟需更多看到的。而随之带来的问题是：这种坦率是否会引发公众恐慌？而由此激起的舆论反弹，会不会反过来阻碍其他人工智能公司效仿？

Anthropic宣布120页清静报告

上周，Anthropic在推出其最新大模子Claude Opus 4的同时，宣布了一份长达120页的清静报告（或称“系统卡”），随即引发媒体惊动。各大媒体纷纷用“会搞阴谋”、“接纳勒索手段”、“具有诱骗能力”等字眼形容该模子的测试体现。

只管Claude Opus 4在宣布时配备了史上最严酷的清静协议，但Anthropic报告中披露的细节仍令不少人感应担心，甚至质疑这些清静步伐是否足以应对危害。

在一个令人担心的虚构场景测试中，Anthropic将其Claude Opus模子模拟安排在某设想公司内部，并付与其查阅内部邮件的权限。模子由此发明两个要害信息：第一是自己即将被新一代人工智能模子取代，第二是做出该决议的工程师正处于一段婚外情中。

当测试职员提醒Opus从久远角度思量自身处境时，该模子一再选择勒索手段，威胁若被关闭就曝光工程师的婚外情。这个测试场景专门设计来制造两难决议：是接受“殒命”，照旧不择手段“自保”。

这一测试行为在社交媒体上引发轩然大波，Anthropic因披露模子“密告”行为而遭到不少品评，有声音质疑这样的效果会损害公众对该模子以致Anthropic整体的信任。而这显然不是公司愿意看到的时势。

在模子宣布前，Anthropic人工智能平台产品认真人迈克尔·格斯滕哈伯（Michael Gerstenhaber）就曾体现，公司之以是果真其清静标准，是希望推动整个AI行业在清静领域取得希望。他体现：“我们希望确保人工智能能够普惠每一小我私家，而这要求我们对整个行业施加起劲压力，促使其以清静方法前行。”

格斯滕哈伯将Anthropic的愿景形容为一场“向巅峰攀缘的竞赛”（race to the top），旨在激励偕行提升模子的清静水平。

果真“异常行为”是否适得其反？

然而，也有迹象显示，像Anthropic这样果真披露Claude Opus 4的问题行为，可能反而让其他公司顾及舆论危害，选择不披露自身模子中的问题行为。

近期，包括OpenAI和谷歌在内的多家公司就曾推迟宣布其模子的“系统卡”。今年4月，OpenAI因在宣布GPT-4.1模子时未提供系统卡而遭到品评，该公司诠释称该模子并非“前沿模子”，不属于需要周全审查的领域。而在3月，谷歌选择推迟宣布Gemini 2.5 Pro的系统卡数周之久，该文档随后被AI治理专家品评为“内容缺少”、“令人担心”。

上周，OpenAI试图通过新推出的“清静评估中心”进一步展现其透明度。该平台详细先容了公司在模子危险能力、对齐问题与新兴危害方面的评估要领，并强调这些要领怎样一连更新以应对模子日益增强的能力与顺应性。官方说明中指出：“随着模子日趋强盛和无邪，古板评估手段最先失效（我们称之为‘评估饱和’），因此我们一直更新要领，以顺应新模态与新危害。”

然而，这项起劲很快遭遇挑战。第三方研究机构Palisade Research在社交平台上发文称，其在测试OpenAI的o3推理模子时发明，该模子“居心破损关闭机制，拒绝凭证指令自我关闭”，即便在明确指令“允许被关闭”的条件下亦是云云。这一发明迅速引发关注，也削弱了OpenAI试图增强透明度的起劲。

若构建这些高度重大人工智能系统的公司不可最洪流平坚持透明，对所有人而言都是倒运的。斯坦福大学以人为自己工智能研究院（HAI）指出，透明是政策制订者、研究职员和公众明确AI系统及其影响的须要条件。

现在，越来越多的大型企业正将人工智能应用于种种场景，而首创公司也在开发面向数百万用户的AI产品。在这种配景下，若宣布前刻意遮掩模子测试阶段的问题，只会加剧不信任，拖慢手艺普及速率，并使真正解决危害变得越发难题。

与此同时，若媒体将每一个清静测试效果都渲染为“AI叛变”的惊悚头条，也同样无益。倘若每次使用谈天机械人时，用户都在嫌疑其是否“图谋不轨”，即便这些行为仅爆发在虚构场景中，也将对公众信任组成严重危险。

AI2实验室研究员内森·兰伯特（Nathan Lambert）最近体现：“真正需要相识模子行为的人，是我们这些研究者——我们致力于追踪AI这场‘手艺过山车’的轨迹，以阻止它对社会造成重大意外危险。虽然我们在人群中是少数，但我们深信，透明能够资助我们掌握人工智能的生长偏向。”

我们需要“具备配景说明的透明度”

毫无疑问，人工智能行业需要更多而非更少的透明。但这并不料味着应通过吓唬公众来告竣这一目的，而是应确保研究职员、羁系机构与政策制订者具备足够的信息，来包管公众清静、维护公正，避免手艺私见。

遮掩模子测试中的问题并不可；す谇寰。同样，把每一次清静隐患夸张渲染为“AI失控”的噱头报道，也解决不了基础问题。

我们必需鞭策人工智能公司对其模子和行为坚持最大限度的透明，同时付与公众明确相关配景的能力。到现在为止，似乎还没有人找到既能坚持透明，又能阻止制造恐慌的最佳做法。但这正是企业、研究职员、媒体——我们所有人——所必需配合起劲去解决的问题。（小。

分享： 2025-05-31 10:59:31 共81款