论文阅读:Frontiers in Human Neuroscience 2026 LLMs achieve adult human performance on higher-order theor
总目录 大模型相关研究 2025版https://blog.csdn.net/WhiffeYF/article/details/142132328LLMs achieve adult human performance on higher-order theory of mind taskshttps://www.frontiersin.org/journals/human-neuroscience/articles/10.3389/fnhum.2025.1633272/fullhttps://arxiv.org/pdf/2405.18870该论文由Winnie Street等来自Google、DeepMind及牛津大学的研究者联合撰写发表于Frontiers in Human Neuroscience 2026年1月刊。该论文聚焦大语言模型LLM的高阶心智理论Theory of Mind, ToM能力——即理解他人 nested 心理状态的能力例如我认为你觉得她知道。研究团队开发了全新测试集MoToMQA包含7个短篇故事及2-6阶心智推理题目对比测试了GPT-4、Flan-PaLM等5款模型与近3万名英国成年人的表现。该论文的核心方法是设计故事判断题的评估范式。以一则职场故事为例Alice误以为Bob知道经理要裁员但实际上Bob并不知情。测试要求判断Alice认为Bob知道裁员消息这一陈述的真假——这涉及3阶推理Alice认为[Bob知道]。更高阶题目可达6层嵌套如我猜你以为我相信她想要…堪比谍战剧的心理博弈。该论文发现GPT-4与Flan-PaLM整体表现达到或接近成人水平且GPT-4在6阶推理上超越人类93% vs 82%。这表明足够大的模型经指令微调后能掌握复杂社交推理。但研究也警示高阶心智能力可能带来操纵风险同时也为自闭症社交训练等应用开辟新可能。