RESOURCES

Physics of Language Models

现代大语言模型在各种任务中展现了卓越的性能,但其成功背后的工作原理仍未被充分揭示。理解这些模型的内在机制有助于加深我们对大模型的理解。

2025-01-22

Physics of Language Models

Safe and Trustworthy AI

概述基于大语言模型的应用所面临的安全挑战、主要研究方向及相关工作。

2025-01-22

Safe and Trustworthy AI

Jailbreaking Large Language Models -- Attacks and Defenses

We review common defensive approaches in both industry and research domains, and discuss a new methodology

2025-02-20

Jailbreaking Large Language Models -- Attacks and Defenses

大模型智能体安全问题——越狱与防御技术的探究与思考

本次分享围绕大模型智能体的安全性问题展开,重点讨论代理越狱技术和相应的防御措施。

2025-02-20

大模型智能体安全问题——越狱与防御技术的探究与思考

DeepSeek系列模型的Safety测试

在9个数据集上对DeepSeek全系列模型进行了全面测试并与gpt4进行对比

2025-02-20

DeepSeek系列模型的Safety测试

多样化的大模型安全防护:挑战与应对

随着大模型在各领域的广泛应用,其安全性问题正引发学界与工业界的广泛关注。现实部署中,大模型易受对抗性攻击和不当微调影响,导致安全防护能力下降,以及在多语言环境下,其安全性问题更加复杂。

2025-02-27

多样化的大模型安全防护:挑战与应对