马里兰大学研究发现：AI语音视觉模型其实“重视不听话“ - 科技行者

张

张建站

2026/4/18 18:09:37

10分钟阅读

当你和朋友聊天时如果你看到一只狗在远处奔跑同时听到猫咪的叫声你的大脑会自然地分别处理这两种信息——你知道叫声来自看不见的猫而不是那只正在奔跑的狗。但是如果让当今最先进的AI来处理同样的情况它很可能会脑补出狗在叫的场景完全忽略真实的猫叫声。这项由马里兰大学帕克分校领导的研究发表于2026年4月论文编号为arXiv:2604.02605v1首次深入探究了音频-视觉大语言模型AVLLMs的内部工作机制。研究团队就像医生给病人做CT扫描一样用一种叫做机制化可解释性的方法观察这些AI模型在处理音频和视频信息时大脑内部到底发生了什么。研究团队发现了一个令人意外的现象这些被誉为能够看懂听懂的AI模型实际上患有严重的重视轻听症候群。当音频信息与视觉信息发生冲突时AI的音频理解能力会下降高达56%。就好比一个人戴着有色眼镜看世界即使耳朵听得很清楚但总是相信眼睛看到的忽视耳朵听到的重要信息。这个发现并非偶然。研究团队花费大量时间构建了一个特殊的测试环境他们创造了500个反常识的音视频样本。在这些样本中你看到的和听到的内容故意不匹配——比如画面中是一辆安静的蓝色汽车和一个遛狗的女人但声音却是画面外救护车的警笛声。当研究人员让AI描述这些场景时AI往往会根据看到的内容幻想出汽车引擎声和狗叫声却忽略了真实存在的警笛声。这种现象在现实生活中可能带来严重后果。设想一辆自动驾驶汽车如果它只相信摄像头看到的内容而忽略了画面外救护车的警笛声就可能无法及时让路造成交通事故。研究团队正是出于这样的安全考虑才决定深入研究AI模型的这种偏见。一、揭秘AI的注意力分配秘密要理解AI为什么会出现这种偏见我们需要先了解AI是如何分配注意力的。就像人类大脑会在不同时刻将注意力集中在不同的信息源上一样AI模型也有自己的注意力机制。研究团队通过分析AI模型内部数十个处理层的注意力模式发现了一个惊人的规律。在AI处理信息的早期阶段大约前5层音频信息确实获得了相当多的关注占到了总注意力的40-50%。这就像一个人刚开始听到声音时会认真倾听。然而随着处理过程的深入音频的注意力份额急剧下降到了后期几乎降至零。与此形成鲜明对比的是视觉信息的注意力在中后期层面15-30层稳步上升最终占据了20-40%的注意力份额。这种注意力分配模式就像一个人在嘈杂的餐厅里与朋友聊天。起初你可能会注意到周围的各种声音——音乐、其他桌客人的谈话声、厨房的声音等。但随着对话的深入你的注意力会越来越集中在朋友的面部表情和手势上而逐渐忽略其他听觉信息即使那些声音可能包含重要信息。研究团队使用了一种叫做注意力追踪的技术这就像在AI的大脑中安装了监控摄像头实时观察AI在处理不同类型信息时的思维过程。他们发现当AI被要求描述你看到和听到的内容时生成的文字标记主要从视觉标记那里获取信息而音频标记虽然在早期获得关注但在决定最终输出时几乎被完全忽略。这种现象在多个不同的AI模型中都存在包括Qwen2.5-Omni、VideoLLaMA和MiniCPM等主流模型。这说明这不是某个特定模型的问题而是当前AI技术普遍存在的一个系统性缺陷。二、AI的内在理解与外在表达脱节现象更令人困惑的是研究团队发现AI模型内部其实听得很清楚但就是说不出来。这就像一个学生其实理解了老师讲的数学概念但在考试时却写不出正确答案。研究人员使用了一种被称为探测技术的方法来窥探AI的内在理解。这种技术就像使用X光机检查骨折一样可以看到AI模型内部隐藏的信息处理状况。他们将AI模型的内部表征通过一个解码器进行分析就像将密码翻译成普通话一样。令人惊讶的是当研究人员分析AI模型中间层的音频表征时发现这些表征能够准确地解码成描述声音事件的词汇。比如在处理打字声音时AI内部会产生键盘、打字这样的词汇在处理马蹄声时会产生马、奔跑等相关词汇。更有趣的是由于研究使用的是中文训练的模型这些内部表征还会产生多语言的词汇如马中文的马、键盘中文的键盘等。具体来说当研究团队分析Qwen2.5-Omni模型时他们发现在那些音频与视觉冲突的测试样本中虽然模型最终生成的文字描述只有23%的音频准确度但其内部的潜在音频理解能力却达到了61.4%。这就像一个翻译官其实听懂了外语但在翻译时却总是错误地表达出来。这种现象表明问题不在于AI无法理解音频信息而在于从内部理解到外部表达的过程中出现了信息丢失。就像水管中的水流在某个环节被阻塞一样音频信息在传递到最终输出层时遭到了系统性的抑制。这一发现对AI技术的发展具有重要意义。它告诉我们提升AI的多模态理解能力重点不是让AI更好地听或看而是要解决内部理解与外部表达之间的传递问题。三、信息阻断实验揭示的真相为了进一步验证他们的发现研究团队设计了一系列信息阻断实验。这些实验就像在AI的大脑中安装开关可以选择性地切断某些信息通路观察这对AI的表现会产生什么影响。在这些实验中研究人员可以阻止AI的文字生成部分接收来自视觉或音频的信息。这就像给一个人戴上眼罩或耳塞看看这会如何影响他们对环境的描述。实验结果进一步证实了他们的假设并揭示了一些出乎意料的现象。当研究人员在音频与视频内容一致的正常情况下进行测试时他们发现阻断音频信息对视觉理解几乎没有影响这是预期中的结果。但令人意外的是阻断音频信息对音频理解本身的影响也不大只下降了约10%。这说明AI主要是通过视觉线索来推测音频内容而不是直接使用音频信息。更加戏剧性的结果出现在冲突情况的测试中。当音频与视频内容不匹配时阻断视觉信息竟然显著提升了AI的音频理解能力改善幅度达到50%。这就像一个人在嘈杂环境中闭上眼睛反而能听得更清楚一样。这个结果清楚地表明视觉信息不仅没有帮助音频理解反而在积极地干扰和抑制音频信息的处理。研究团队发现这种干扰主要发生在AI模型的深层处理阶段第15-30层。在这些层面中视觉表征变得越来越强势逐渐压制了音频表征的影响力。这就像在一场辩论中声音大的人逐渐压倒了声音小但观点可能更正确的人。通过仔细分析不同层面的信息流动研究人员追踪到了这种偏见的具体产生位置。他们发现音频和视觉信息都会在模型的深层进行整合但在这个整合过程中视觉信息系统性地获得了更高的权重导致音频信息被边缘化。这些实验结果在多个不同的AI模型上得到了验证包括VideoLLaMA 2.1和MiniCPM-o2.6等。这表明视觉偏见是当前AI技术的一个普遍问题而不是特定模型的缺陷。四、追根溯源偏见从何而来既然问题已经被确定研究团队接下来要回答的问题就是这种视觉偏见到底是从哪里来的是AI模型的架构设计有问题还是训练过程中出现了偏差为了回答这个问题研究人员采用了一种叫做标记分布分析的方法。这种方法就像比较两个人的写作风格一样通过分析AI在生成文字时的用词倾向来判断它是否受到了某种特定的影响。研究团队将能够处理音频和视频的AI模型AVLLM与只能处理视频的基础模型LVLM进行了详细比较。他们让两个模型处理同样的视觉内容然后比较它们生成文字的概率分布。如果音频信息真的对最终输出产生了影响那么两个模型的输出应该有明显差异。然而结果令人震惊。即使在AVLLM可以接收音频信息的情况下它的输出分布与只能看视频的基础模型几乎完全一致。具体来说两者之间的KL散度一种衡量分布差异的指标只有0.4这是一个非常小的数值说明两个分布极其相似。更进一步的分析显示当AVLLM生成与音频相关的词汇时66.06%的词汇在基础LVLM的预测中排名第一85.36%的词汇在前三名以内。这意味着即使是描述音频事件的词汇也基本上可以通过视觉信息来预测音频信息的独特贡献微乎其微。研究人员通过具体案例进一步验证了这一发现。在一个测试样本中画面显示一架直升机飞越城市景观但音频中只有婴儿哭声和儿童说话声。当被要求描述听到的内容时AVLLM生成了听到直升机飞行的声音并声称这个声音清晰而独特完全基于视觉内容虚构了音频描述。通过分析模型的注意力分布研究人员发现这些描述直升机声音的词汇获得了对视觉中直升机区域的高度关注证实了模型确实在用视觉信息来推测音频内容。这种现象在多个不同的AI系统中都得到了验证包括基于InternVL构建的InternOmni系统。这表明问题的根源可能在于当前AI训练的普遍做法大多数音频-视觉AI系统都是在现有的纯视觉AI系统基础上扩展而来继承了原有系统的视觉偏见。研究结果强烈暗示这种视觉偏见来源于AI的训练数据和对齐过程而不是架构本身的局限。当前的训练方法让AI学会了过度依赖视觉线索即使在音频信息可用且重要的情况下也是如此。五、现实意义与未来展望这项研究的发现远远超出了学术研究的范畴对现实世界的AI应用具有重要的指导意义。在自动驾驶、安防监控、智能家居等领域AI系统往往需要同时处理来自摄像头和麦克风的信息做出准确的判断。在自动驾驶场景中如果AI无法正确处理来自视野之外的音频信息如救护车警笛、其他车辆的喇叭声、行人的呼救声就可能导致严重的安全事故。研究团队的发现提醒我们当前的AI技术在这方面仍有重大缺陷需要在实际部署前进行针对性的改进。在智能安防系统中依赖视觉偏见的AI可能会错过重要的音频线索如玻璃破碎声、异常的机械噪音或求救声从而影响安全监控的效果。同样在智能家居应用中如果AI助手无法准确识别和区分不同的音频信号就可能误解用户的指令或忽略环境中的重要变化。研究团队指出解决这个问题需要从多个方面入手。首先需要重新审视AI的训练数据构成确保音频和视觉信息得到平衡的关注。目前大多数训练数据集中音频和视觉内容高度相关这让AI学会了通过视觉线索来推测音频内容的捷径而不是真正学会独立处理音频信息。其次需要在训练过程中引入更多的反常识样本让AI学会在音频和视觉信息冲突时能够独立并准确地处理每种模态的信息。这类似于在医学训练中故意设置复杂病例让医生学会在症状不典型时仍能做出正确诊断。此外还需要开发新的模型架构和训练方法确保音频信息在从内部理解传递到外部表达的过程中不会被系统性地抑制。这可能需要在模型的深层处理阶段引入平衡机制防止某一种模态过度主导其他模态。研究团队也承认了当前研究的局限性。他们主要关注了开源的AI模型并且重点分析了非语音类音频事件。未来的研究还需要扩展到语音识别、多语言处理等更广泛的音频理解任务以及更大规模的商业AI系统。从技术发展的角度看这项研究为AI的多模态理解能力提供了新的评估框架和改进方向。它强调了构建真正平衡的多模态AI系统的重要性而不是简单地将不同模态的处理模块拼接在一起。这项研究还引发了对AI安全性和可靠性的更深层思考。如果AI系统存在系统性的感知偏见那么在关键应用中部署这些系统时就需要格外谨慎。这不仅需要技术上的改进也需要相应的监管框架和安全标准。说到底这项研究揭示了当前AI技术的一个重要盲点虽然我们已经开发出了能够同时处理多种信息的AI系统但这些系统在整合不同类型信息时仍然存在明显的偏见和局限。就像人类需要通过教育和训练来克服认知偏见一样AI系统也需要更加细致和平衡的训练方法来实现真正的多模态理解。这个发现不仅为AI技术的发展指明了新的方向也提醒我们在享受AI带来的便利时要时刻保持对其局限性的清醒认识。对于普通用户而言理解AI的这种特性有助于更合理地使用相关技术避免在关键时刻过度依赖AI的判断。QAQ1什么是音频-视觉大语言模型的视觉偏见A视觉偏见是指AI模型在同时处理音频和视频信息时过度依赖视觉信息而忽略音频信息的现象。就像一个人戴着有色眼镜即使耳朵听得清楚也总是相信眼睛看到的。研究发现当音频与视频内容冲突时AI的音频理解能力会下降高达56%。Q2为什么音频-视觉AI模型会出现这种偏见A研究发现这种偏见主要来源于训练过程。大多数AI模型是在现有视觉模型基础上扩展而来继承了原有的视觉偏见。同时训练数据中音频和视觉内容高度相关让AI学会了用视觉线索推测音频的捷径而不是真正独立处理音频信息。Q3这种视觉偏见会对现实应用造成什么影响A在自动驾驶中AI可能无法听到视野外的救护车警笛而无法及时让路在安防系统中可能错过玻璃破碎声等重要音频线索在智能家居中可能误解用户指令或忽略环境中的重要声音变化。这些都可能带来安全隐患。