文章总结与翻译一、主要内容该研究聚焦于交互式视频生成中的世界模型构建,核心目标是解决长视频生成中的两大关键挑战:复合误差(compounding errors)(早期预测偏差随时间累积导致结果失真)和内存机制不足(insufficient memory mechanisms)(难以维持长期时空一致性)。研究通过以下核心工作展开:问题分析:系统拆解了自回归视频生成中复合误差与内存不足的耦合问题,指出当前视频模型的上下文学习能力薄弱,直接迁移LLM的长上下文扩展(如YaRN)、检索增强生成(RAG)等技术效果有限。方法提出:设计视频检索增强生成(VRAG)框架,核心包含:显式全局状态条件(如3D坐标、姿态),为生成提供空间锚定;历史帧检索与内存缓冲机制,通过相似度匹配筛选相关历史帧;针对性训练策略(如检索帧的旋转位置编码偏移、低噪声注入、损失掩码),适配视频模型的特性。实验验证:在Minecraft游戏数据集(1000个长视频)和RealEstate10K真实世界数据集上验证,VRAG在SSIM、PSNR、LPIPS等指标上显著优于传统扩散模型、长上下文扩展、神经内存增强等基线方法,有效降低复合误差并提升时空一致性。基准构建/