基于大语言模型的AI系统越来越多地被用作与用户和世界交互的智能体。为了成功做到这一点,大语言模型需要构建世界的内部表征,并估计每种表征准确的概率。以个性化推荐为例:大语言模型需要通过多次交互,从用户的选择中逐步推断出用户的偏好。贝叶斯推理定义了执行此类更新的最优方式。通过实施这一策略,大语言模型可以在获得关于用户的新信息时更新对用户偏好的估计,从而优化用户交互。但如果没有专门的训练,大语言模型往往会采用简单的启发式方法,比如假设每个人都想要最便宜的选项,而不是推断特定用户的独特偏好。在"贝叶斯教学使大语言模型具备概率推理能力"的研究中,我们通过训练大语言模型模仿贝叶斯模型的预测,来教会它们以贝叶斯方式进行推理。贝叶斯模型定义了关于概率推理的最优方式。我们发现,这种方法不仅显著提高了大语言模型