大模型智能体安全问题——越狱与防御技术的探究与思考

讲者2: 崔晨航

随着大模型在智能体（Agent）领域的广泛应用，这些智能体具备了感知环境、推理、决策并采取实际行动的能力。与传统的大语言模型仅限于生成文本不同，这些智能体能够在虚拟或现实世界中执行实际操作，对环境产生直接影响。因此，其安全性显得尤为重要。本次分享将围绕大模型智能体的安全性问题展开，重点讨论代理越狱技术和相应的防御措施。首先，本次分享讨论了智能体越狱技术，指出攻击者如何突破智能体系统的安全防线。接着，介绍了当前主要的防御技术。本次分享还分析了越狱攻击与防御技术的挑战，并探究未来可能的方向。