Physics of Language Models

现代大语言模型在各种任务中展现了卓越的性能，但其成功背后的工作原理仍未被充分揭示。理解这些模型的内在机制有助于加深我们对大模型的理解。本次分享将借鉴物理学中“观察—猜想—验证”的实证研究方法，以设计受控实验为核心，对大语言模型的工作原理进行可控探索。具体而言，研究流程包括以下三步：

围绕这一研究方法，本次分享将重点探讨以下三个关键问题：