大模型智能体安全问题——越狱与防御技术的探究与思考

讲者2: 崔晨航

随着大模型在智能体(Agent)领域的广泛应用,这些智能体具备了感知环境、推理、决策并采取实际行动的能力。与传统的大语言模型仅限于生成文本不同,这些智能体能够在虚拟或现实世界中执行实际操作,对环境产生直接影响。因此,其安全性显得尤为重要。本次分享将围绕大模型智能体的安全性问题展开,重点讨论代理越狱技术和相应的防御措施。首先,本次分享讨论了智能体越狱技术,指出攻击者如何突破智能体系统的安全防线。接着,介绍了当前主要的防御技术。本次分享还分析了越狱攻击与防御技术的挑战,并探究未来可能的方向。

news image