home
news
people
gallery
resources
contact
Safe and Trustworthy AI
讲者:
郑静楠
当前的安全挑战主要来自两个方面:首先是确保模型对齐,使其保持有益、无害且诚实的特性;其次是加强对抗攻击防御能力,防止模型被滥用。针对这些安全挑战,研究工作主要围绕三个方向展开:
攻击研究,致力于发现模型对齐中的薄弱环节和漏洞;
防御研究,探索解决这些脆弱点的有效方法;
评测研究,建立系统化的评价体系,对不同模型进行全面比较和分析。