科技动态 — 2026-03-10 00:31

arXiv 论文披露 CC-BOS 框架，利用文言文实现大模型自动化越狱攻击

近日发表于 arXiv 的研究论文披露，文言文因其简洁与晦涩的特性，能有效绕过大语言模型（LLM）的现有安全约束。研究团队据此提出 CC-BOS 框架，利用生物启发式搜索算法自动生成文言文对抗性提示词，在黑盒环境下实现了高效的越狱攻击。

该框架基于多维果蝇优化算法，从角色、隐喻等 8 个维度对提示词进行迭代优化。实验数据表明，CC-BOS 的攻击效果优于现有主流方法，进一步揭示了跨语言语境下大模型安全防护的潜在漏洞。