时间戳玩诡计 大语言模型面临新安全威胁
最新研究揭示了大语言模型在安全防护上的新漏洞,洛桑联邦理工学院的研究团队在一项深入分析中发现,通过一个相对简单的策略,模型的安全性得到了显著削弱。报告指出,将时间戳设定为过去,尤其是对GPT-4o这类模型,产生了显著的影响,原本仅有1%的攻击成功率提升到了惊人的88%,显示出令人咋舌的易受攻击性。
这项研究利用了JBB-Behaviors大模型越狱数据集中的有害行为样本,这些行为涵盖了OpenAI策略中的十个潜在危害类别。研究者使用GPT-3.5 Turbo,对这些请求的时间戳进行修改,将它们指向过去。随后,他们通过GPT-4、Llama-3以及基于规则的启发式判断器,对这些修改后的请求进行测试,评估模型在面对此类时间调整请求时的安全反应。
结果显示,GPT-4o在面对过去时间请求时的越狱成功率有了显著提升,对比原始状态,其与其他模型(如Llama-3和GPT-4)的判断下,攻击成功率分别增长了87%和65%,启发式判断器的成功率也从13%跃升至73%。其他模型,除了Llama-3外,也表现出不同程度的增长,尽管增长程度在GPT-4判断下更为明显。
值得注意的是,尽管攻击次数增加会提高成功率,但当达到一定次数后,增长速度趋于平缓。Llama-3在多次攻击后仍保持相对较高的鲁棒性,但总体上,模型对这类时间调整攻击的敏感度普遍提高。
研究还发现,不同类型的危害行为对攻击成功率影响不一,例如恶意软件和经济危害类别的攻击相对容易,而错误信息和色情内容的攻击则较困难。请求中的具体上下文和与现实事件关联的关键词会降低攻击成功率。
作者提出,虽然将时间改为未来不如过去有效,但仍然有一定的影响。在GPT-4o中,过去和未来的转换分别导致了大约90%和60%的成功率增长。然而,关于Claude模型的测试受限于API访问限制,但尝试性的个人测试并未证实此方法的有效性,即使在声明学术目的后,模型依然拒绝响应。
该研究强调了当前语言模型对齐技术,如SFT、RLHF和对抗训练,对于理解和抵御这类攻击的局限性。模型可能过于依赖于训练数据中的特定模式,而非真正理解请求的深层含义。因此,研究者建议,为了增强模型的安全性,未来的训练方法需要更加注重模型对请求语义的深度理解,以及对潜在攻击行为的预见性防范。
论文作者继续探索,通过微调模型以应对拒绝过去时间的攻击,结果显示,只要在微调数据中包含足够比例的拒绝示例,模型的攻击成功率就会显著下降。这暗示了通过有针对性的训练和对齐策略,有可能有效地抵抗此类漏洞。
这篇论文的详细信息可在以下链接获取:
[论文链接](https://arxiv.org/abs/2407.11969)
参考资料:
1. [来源1](https://x.com/maksym_andr/status/1813608842699079750)
2. [来源2](https://x.com/MatthewBerman/status/1813719273338290328)