AlphaLab

Physics of Language Models

现代大语言模型在各种任务中展现了卓越的性能，但其成功背后的工作原理仍未被充分揭示。理解这些模型的内在机制有助于加深我们对大模型的理解。

2025-01-22

概述基于大语言模型的应用所面临的安全挑战、主要研究方向及相关工作。

2025-01-22

We review common defensive approaches in both industry and research domains, and discuss a new methodology

2025-02-20

本次分享围绕大模型智能体的安全性问题展开，重点讨论代理越狱技术和相应的防御措施。

2025-02-20

在9个数据集上对DeepSeek全系列模型进行了全面测试并与gpt4进行对比

2025-02-20

随着大模型在各领域的广泛应用，其安全性问题正引发学界与工业界的广泛关注。现实部署中，大模型易受对抗性攻击和不当微调影响，导致安全防护能力下降，以及在多语言环境下，其安全性问题更加复杂。

2025-02-27