讲者1: 盛乐恒
现代大语言模型在各种任务中展现了卓越的性能,但其成功背后的工作原理仍未被充分揭示。理解这些模型的内在机制有助于加深我们对大模型的理解。本次分享将借鉴物理学中“观察—猜想—验证”的实证研究方法,以设计受控实验为核心,对大语言模型的工作原理进行可控探索。具体而言,研究流程包括以下三步:
围绕这一研究方法,本次分享将重点探讨以下三个关键问题: