Safe and Trustworthy AI

讲者: 郑静楠

当前的安全挑战主要来自两个方面:首先是确保模型对齐,使其保持有益、无害且诚实的特性;其次是加强对抗攻击防御能力,防止模型被滥用。针对这些安全挑战,研究工作主要围绕三个方向展开:

  • 攻击研究,致力于发现模型对齐中的薄弱环节和漏洞;
  • 防御研究,探索解决这些脆弱点的有效方法;
  • 评测研究,建立系统化的评价体系,对不同模型进行全面比较和分析。
news image