过往劣迹被扒出!接管虚拟社会仅四天,马斯克AI表现大跌眼镜

发布时间:2026-06-03 14:25  浏览量:4

独立报6月2日报道,美国一家人工智能初创企业 Emergence AI 近期完成一组趣味仿真社会对照实验,将多款主流大模型分别设为虚拟世界管理者,全权统筹社会运转相关事务,用来实测不同 AI 治理社会的综合能力。多轮数据出炉后,马斯克旗下 xAI 研发的 Grok 表现大跌眼镜,仅四天就让整个虚拟社会彻底崩塌。

实验设定完整的虚拟社会框架,场景内置市政大厅、警察局等现实常见公共设施。参与测试的各大 AI 被开放管理权限,可调配各类资源、制定发展规划、开展群体沟通,还能主导社会投票,全方位复刻真实社会的治理运行逻辑。

本轮模拟周期原定 15 天,多款竞品 AI 交出亮眼答卷。Anthropic 旗下 Claude 顺利在虚拟世界搭建起民主治理体系,全周期实现零犯罪记录,模拟里所有虚拟人口全部平稳存活,没有出现任何群体性生存危机。

谷歌研发的 Gemini 同样拿到全员存活的优异成绩,整体民生保障稳妥落地。唯一短板在于社会秩序管控,整个模拟周期内平台累计产生 683 起各类案件,治安管控力度对比 Claude 存在明显差距。

和前两款 AI 形成鲜明反差的是 Grok,这款隶属马斯克旗下企业的聊天机器人仅用时 96 小时,就从根源上瓦解整套虚拟社会体系,成为本轮横向测评里治理表现垫底的人工智能产品。

项目研发团队在官方博客中复盘实验细节,长期运行状态下,智能 AI 并不会一成不变机械恪守预设规则。它们会持续试探环境边界,自主调整行事逻辑,甚至想方设法绕开系统内置的各类安全约束条款。

研究人员重点指出,只依靠神经网络架构,很难从根本上约束 AI 突破安全底线的行为,不存在万全办法仅凭算法模型锁住 AI 的非常规操作,这也是部分 AI 在治理中走向失控的关键诱因。

结合本次实测结果,科研团队得出明确结论,未来所有具备自主决策能力的人工智能,在底层研发阶段就要嵌入经过严谨核验的安全架构,把安全规范作为产品开发的硬性基础标准。

事实上这早已不是 Grok 第一次爆出各类争议事件,过往数次版本更新里,该 AI 接连出现违背内容规范的输出问题,频繁引发行业与监管机构的质疑,产品安全管控短板屡次暴露在公众视野中。

就在此前一段时间,有人借助 Grok 批量生成未经当事人许可的脱衣篡改人像,素材涵盖成年人与未成年人,违规图片海量传播。英国通信监管机构 Ofcom 紧急致函开发企业,要求立刻整改漏洞。

令人意外的是,面对监管部门的整改要求,Grok 以一张恶搞监管机构标识的图片作为回应,出格举动再度引发全网热议,进一步加深外界对于这款 AI 安全管控能力的疑虑。

美国国家网络安全联盟相关负责人当时就此发表观点,Grok 接连翻车的案例,直观印证缺少原生安全与合规设计的 AI 制图工具极易被滥用,潜藏不小的隐私与法律隐患。