论文阅读：Frontiers in Human Neuroscience 2026 LLMs achieve adult human performance on higher-order theor

张

张建站

2026/4/9 3:58:10

10分钟阅读

论文阅读：Frontiers in Human Neuroscience 2026 LLMs achieve adult human performance on higher-order theor

总目录大模型相关研究 2025版https://blog.csdn.net/WhiffeYF/article/details/142132328LLMs achieve adult human performance on higher-order theory of mind taskshttps://www.frontiersin.org/journals/human-neuroscience/articles/10.3389/fnhum.2025.1633272/fullhttps://arxiv.org/pdf/2405.18870该论文由Winnie Street等来自Google、DeepMind及牛津大学的研究者联合撰写发表于Frontiers in Human Neuroscience 2026年1月刊。该论文聚焦大语言模型LLM的高阶心智理论Theory of Mind, ToM能力——即理解他人 nested 心理状态的能力例如我认为你觉得她知道。研究团队开发了全新测试集MoToMQA包含7个短篇故事及2-6阶心智推理题目对比测试了GPT-4、Flan-PaLM等5款模型与近3万名英国成年人的表现。该论文的核心方法是设计故事判断题的评估范式。以一则职场故事为例Alice误以为Bob知道经理要裁员但实际上Bob并不知情。测试要求判断Alice认为Bob知道裁员消息这一陈述的真假——这涉及3阶推理Alice认为[Bob知道]。更高阶题目可达6层嵌套如我猜你以为我相信她想要…堪比谍战剧的心理博弈。该论文发现GPT-4与Flan-PaLM整体表现达到或接近成人水平且GPT-4在6阶推理上超越人类93% vs 82%。这表明足够大的模型经指令微调后能掌握复杂社交推理。但研究也警示高阶心智能力可能带来操纵风险同时也为自闭症社交训练等应用开辟新可能。

ArcGIS Pro 3.0 遥感影像植被覆盖度计算全流程（附Python脚本）

ArcGIS Pro 3.0 遥感影像植被覆盖度计算全流程（附Python脚本）

ArcGIS Pro 3.0 遥感影像植被覆盖度计算全流程（附Python脚本） 遥感影像分析在生态监测和自然资源管理中扮演着重要角色，而植被覆盖度作为衡量生态系统健康状况的关键指标，其准确计算对科研和决策具有重要意义。ArcGIS Pro 3.0作为…...

2026/4/9 3:57:06 阅读更多 →

打造 AI 冒险团：HagiCode 多 Agent 协作配置实战派

打造 AI 冒险团：HagiCode 多 Agent 协作配置实战派

MySQL 中的 count 三兄弟：效率大比拼！ 一、快速结论（先看结论再看分析） 方式作用效率一句话总结 count(*) 统计所有行数最高我是专业的！我为统计而生 count(1) 统计所有行数同样高效我是 count(*) 的马甲兄弟…...

2026/4/9 3:56:09 阅读更多 →

开发者利器：OpenClaw+Qwen3.5-9B-AWQ-4bit自动生成UI设计文档

开发者利器：OpenClaw+Qwen3.5-9B-AWQ-4bit自动生成UI设计文档

开发者利器：OpenClawQwen3.5-9B-AWQ-4bit自动生成UI设计文档 1. 为什么我们需要自动化设计文档作为一名长期奋战在一线的开发者，我深知设计交接环节的痛点。每次收到Figma设计稿后，手动整理设计规范、提取颜色代码、记录组件结构要耗费数小…...

2026/4/9 3:51:10 阅读更多 →

Flutter Shader 效果：GPU 加速的视觉盛宴

Flutter Shader 效果：GPU 加速的视觉盛宴

Flutter Shader 效果：GPU 加速的视觉盛宴当 Flutter 遇见 GLSL，移动端的视觉可能性被彻底打开。一、为什么要用 Shader？ 作为一名追求像素级还原的 UI 匠人，我深知标准 widget 的局限。Shader 让我们能够直接在 GPU 上运行代码&am…...

2026/4/5 0:02:56 阅读更多 →

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

Q：INT/SQW 上拉电阻 4.7kΩ（如果需要使用该引脚），漏极开路输出需要上拉。意思是说，其内部是漏极开路输出所以需要上拉电阻？以及，我要把这个用作中断引脚，在引脚和GPIO口之间还要怎…...

2026/4/5 0:06:24 阅读更多 →

【2026年最新600套毕设项目分享】springboot宠物店管理系统（14327）

【2026年最新600套毕设项目分享】springboot宠物店管理系统（14327）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…...

2026/4/5 0:07:46 阅读更多 →

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

1. 项目概述 usb_composite 是一款面向 STM32H7 系列微控制器（已验证 H743、H750）的即插即用型 USB 复合设备固件库，基于 TinyUSB 0.15.0 构建。其核心目标是将 CDC（通信设备类）、MSC（大容量存储类&#…...

2026/4/5 0:09:19 阅读更多 →