Safe and Trustworthy AI

当前的安全挑战主要来自两个方面：首先是确保模型对齐，使其保持有益、无害且诚实的特性；其次是加强对抗攻击防御能力，防止模型被滥用。针对这些安全挑战，研究工作主要围绕三个方向展开：