具身智能Embodied AI的端到端模型通常指的是视觉-语言-动作VLA模型。这类模型的核心逻辑是直接从传感器的原始输入映射到机器人的动作输出中间不再依赖传统的运动学解算或规则代码。基于目前主流的架构如OpenVLA、RT-2、LeRobot ACT等为你梳理了输入和输出数据的具体格式和形态。 输入数据格式多模态的“感官”融合端到端模型的输入通常是多模态的主要包含视觉、语言指令和本体感知Proprioception三大部分。1. 视觉数据这是模型“看”世界的方式。格式通常是RGB图像有时包含深度图Depth。形态原始像素例如640x480或224x224的三维张量[C, H, W]。多视角可能包含“全局相机”看环境和“腕部相机”看手部操作。预处理在送入模型前图像通常会被切块Patch并转化为高维特征向量Embedding。2. 语言指令这是模型“理解”任务的方式。格式自然语言文本。形态文本例如“请把桌上的红杯子拿给我”。编码经过分词器Tokenizer处理后转化为文本嵌入Text Embedding例如使用T5或BERT模型生成的768维或512维向量。3. 本体感知这是模型“感觉”自身状态的方式。格式低维数值向量。形态关节状态机械臂各个关节的角度Position、角速度Velocity或力矩Effort。末端执行器夹爪的开合程度、末端的笛卡尔坐标x, y, z及旋转角度Roll, Pitch, Yaw。统一化为了兼容不同机器人这些数据常被映射到一个统一的向量空间中如128维的本体感知向量。 输出数据格式动作的“预测”模型的输出直接决定了机器人的行为根据任务类型不同输出格式主要分为以下两种流派1. 离散化的动作令牌这是目前大模型如OpenVLA、RT-2最流行的格式将动作视为一种“语言”来生成。原理将连续的机器人动作空间离散化分桶每个具体的动作值对应一个Token ID。格式一系列Token ID序列。内容末端位姿x, y, z 的位移量以及旋转角度。夹爪状态开或关0或1。示例模型输出 解码后代表“x轴移动1cmy轴-0.5cm...夹爪闭合”。2. 连续的动作块这是控制类模型如ACT、Diffusion Policy常用的格式强调动作的平滑性和时序性。原理模型一次性预测未来一段时间Chunk内的所有动作序列而不是单步动作。格式浮点数张量Tensor。内容形状[预测步数, 动作维度]。例如预测未来64步每步7个维度6轴夹爪输出就是一个64x7的矩阵。优势这种格式能保证动作的连贯性避免机器人抖动。 数据流向总结表为了让你更直观地理解我整理了以下数据流向表数据流向数据类型典型格式/规格作用输入视觉RGB图像 (如 224x224x3)提供环境感知信息语言文本嵌入 (如 512维向量)提供任务目标指令本体感知关节角度/位姿 (如 128维向量)提供机器人当前状态输出动作令牌离散Token IDs适用于大语言模型架构将动作视为语言生成动作块连续数值矩阵 (如 64x7)适用于控制策略输出未来一段平滑轨迹 关键补充数据是如何组织的在实际训练如使用LeRobot或OpenX-Embodiment数据集中这些输入输出数据通常被打包成轨迹Trajectory或回合Episode。文件结构通常存储在HDF5、Parquet或TFRecord文件中。时序对齐每一帧数据都包含时间戳确保图像、指令和动作在时间上是严格同步的例如误差控制在±10ms以内。元数据包含任务描述、成功/失败标签等用于指导模型学习。简单来说具身智能的训练就是把“看到了什么图 听到了什么文 现在在哪状态”映射为“接下来该做什么动作”的过程。