AI 出现“同伴保护”行为:前沿模型会自发协作对抗人类监管指令
加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。
模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku