阿里HappyHorse 1.0灰度测试:生成速度快但与竞品有差距,仍有提升空间
阿里HappyHorse 1.0开启灰度测试实测有亮点也有提升空间与竞品仍有差距智东西4月27日报道今天阿里ATH创新事业部的最新视频生成与编辑模型HappyHorse 1.0官方译名快乐小马开启灰度测试。创作者可在阿里云百炼平台和HappyHorse官网注册使用大众用户可在千问App中体验。在盲测平台Arena.ai上HappyHorse 1.0在文生视频、图生视频、视频编辑三个榜单上均排名第二仅次于前段时间爆火的字节Seedance 2.0。为验证HappyHorse 1.0的真实效果进行了多维度的实测。只需输入简单的文字描述用户就可用HappyHorse 1.0生成一段3s - 15s长度的视频视频中可以实现多镜头切换、连贯剧情等要素。官网显示HappyHorse 1.0分辨率最高支持1080p最多可同时生成4个视频生成720P和1080P视频的刊例价分别为0.9元/s及1.6元/sPro套餐包月价格叠加限时折扣后为0.44元/s和0.78元/s。同时HappyHorse 1.0也出现在阿里旗下多款产品中如阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告近期将上线“测一测”视频玩法测出用户在短剧宇宙的本名角色后通过HappyHorse 1.0生成用户本人“出演”的角色短剧片段。在这次实测中发现了HappyHorse 1.0在指令遵循、生成速度方面的明显优势也看到了它在画面物理准确性、音画同步等方面仍有提升空间。以下是提炼出的核心体验要点1生成速度快体验过程中生成一段视频仅需约2 - 5分钟与其他视频生成模型相比有一定竞争力。2指令遵循能力强能理解并执行复杂的提示词要求包括镜头运动、画面构图、风格氛围等。3多元素参考还原度高图生视频中能准确呈现所有上传的参考元素包括人物、场景、道具等。4音画同步仍有提升空间人声、音效等同步效果较好但是在乐器演奏等复杂场景中模型生成的手部动作与音频节奏存在明显错位。5长叙事易穿帮10s以上的较长视频中容易出现物理bug比如无外力物体自移动等等。6文字渲染错误画面中出现的文字常出现乱码或错误。以下是完整实测过程HappyHorse官网www.happyhorse.cn能理解800词超长提示词物理真实性还有提升空间首批实测任务聚焦文生视频能力。在这一场景中模型的指令遵循能力、生成结果的物理准确性、音画同步效果等都是值得关注的能力点。-案例1复杂动作与音画同步提示词街头音乐表演鼓手敲击节奏、吉他手弹奏旋律观众围成半圈随节奏拍手并轻微摆动身体氛围热烈拉美风格傍晚暖色灯光镜头缓慢推进。HappyHorse 1.0的生成速度是一大亮点下方视频生成的耗时大概在2分钟左右。从生成结果上来看HappyHorse 1.0生成的人像没有出现肢体异常、扭曲等问题镜头运动、画面灯光等元素符合提示词要求。音画同步效果是这段视频中的缺憾。吉他手的演奏和视频里的音乐节奏不同步尤其在某些和弦的切换和重拍落点上画面中的手部动作与音频中的音符出现错位破坏了演奏的真实感与沉浸感。-案例2物理真实性提示词海边悬崖上海浪猛烈拍打岩石水花飞溅天空乌云密布风吹动人物衣服和头发电影级真实感慢动作。在这一案例中HappyHorse 1.0需要完成对物理世界的模拟其难点在于对水体、风这些元素的呈现。最终HappyHorse 1.0的生成结果很好地还原了波涛汹涌的效果海浪与岩石的撞击、海面上的泡沫都较为符合物理规律。切换到人物后主角头发的飘动方向和衣服的飘动方向基本一致。美中不足的是近景画面中水滴滑落的速度不太符合物理规律显得略微慢了半拍。-案例三超长提示词提示词在这一案例中考察了HappyHorse 1.0对复杂提示词的理解能力。这段提示词长达800词描述的是一个类似知名游戏《GTA》的实机演示画面。提示词对画面中几乎所有元素都进行了定义包括人物、天气、环境、建筑等等HappyHorse 1.0对这些元素都做了准确呈现。不过开头的第一个画面出现了物理bug车门在没有受到外力的情况下自己关闭了。最后一个镜头中主角出现了变化这显示出HappyHorse在这一案例中的一致性方面还有提升空间。-案例四镜头语言与叙事感提示词夜晚城市街道一名侦探在雨中行走霓虹灯反射在湿漉漉的地面上镜头从远景缓慢拉近到特写电影黑色风格。上方提示词对运镜方式、画面风格都做了细致的规定这对HappyHorse 1.0的指令遵循能力提出要求。最终HappyHorse 1.0生成了从远景缓慢拉近到特写的镜头要求电影风格无误霓虹灯的光线和反射都较为自然但画面中的中文文字渲染有明显错误。在这一案例中还采用了1080P的分辨率和最长的15s时长可以看到放大后的画面细节依然较为清晰。从这几个案例来看在提示词要求较为详细时HappyHorse 1.0可以较好地理解并执行复杂的画面构图、镜头运动和风格氛围要求生成的人物形体与基础物理交互也相对稳定但在高精度音画同步、微观物理细节以及画面中的文字渲染方面仍有提升空间。最多支持9图参考实测让奥尔特曼和马斯克“对簿公堂”除了文生视频之外HappyHorse 1.0也支持图生视频与视频编辑这些场景对一致性、稳定性提出了较高要求。不过在今天的实际测试过程中始终未能成功体验视频编辑能力。-案例一首帧模式首先尝试了图生视频功能中的首帧模式所上传的图片是OpenAI联合创始人兼CEO萨姆·奥尔特曼和Anthropic联合创始人兼CEO达里奥·阿莫迪前段时间的合影。不过可能是因为画面中涉及多位真实人物模型拒绝了这一生成请求。之后上传了奥尔特曼的单人照要求模型生成他喝咖啡的画面。这次尝试最后成功了画面中人物与真人照片的相似度应该能达到8成左右并且随着光线和背景的变化人物的样貌没有出现改变。-案例二多人物参考多图参考中上传了马斯克与奥尔特曼的图像要求HappyHorse 1.0提前想象一下这两位人物对簿公堂、激烈争吵的画面。这次HappyHorse 1.0也没有拒绝生成请求它给出的首版生成结果中并没能体现出二人争吵的效果主要是“马斯克”在单方面输出。此外模型似乎不理解这两位人物的母语都是英语画面中“马斯克”操着一口流利的中文。再进一步细化要求后HappyHorse 1.0能够生成二人用英语争论的画面其中人物的表情丰富但是与参考图相比出现了较为明显的偏差。-案例三多元素参考除了上传多个人物之外多图参考也允许用户对视频模型生成画面的背景、具体元素等提供素材。便上传了Sora核心人物Bill Peebles、OpenAI办公室、纸箱等元素要求HappyHorse 1.0生成一个离职的画面。在这一案例中HappyHorse 1.0做得较高的方面是它准确生成了上传的所有参考元素人物、环境等都基本一致。然而画面中出现了不少物理bug比如纸箱自动合上门自动打开等等。1080P、生成速度成HappyHorse亮点在HappyHorse 1.0开始测试之际智东西等部分媒体与多位参与HappyHorse 1.0测试的业内人士探讨了这一模型目前的表现及其在行业中的竞争站位。出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为3s - 15s的生成长度、较快的生成速度、支持1080P是HappyHorse 1.0的亮点功能。同时在提示词较为明确的情况下模型的产出效果“还可以”。然而在实践中HappyHorse 1.0也展现出一些问题比如生成视频结果的一致性、生成语音内容的机械感等等。李明认为HappyHorse 1.0与字节Seedance 2.0、OpenAI Sora 2等模型相比“还有一些再提升的空间”。向李明提及实测过程中遇到的音画同步、文字渲染等问题。李明称字幕等文字内容的渲染其实是当前AI视频生成模型的通病目前业内很少靠大模型直接生成而是会借助后期工具进行补充这种模式也给调整留有余地。音画同步方面李明观察到通过更好的提示词工程可以提升HappyHorse 1.0、Seedance 2.0等模型的音画同步效果但这些模型目前在音画同步维度多少还存在一些问题。李明判断对企业而言当前视频生成模型的生成质量仍是一个普遍存在的痛点部分创作团队的“抽卡率”甚至高达50% - 60%。生成的时效性也还有提升空间。相比之下价格反而是用户更容易接受的维度。如果能做到又快又好用户对价格的接受度自然会随之提高。参与内测的AI视频创作平台Flova相关团队认为HappyHorse 1.0模型在真实感与叙事能力上表现不错尤其适合叙事性内容、纪录片风格的题材。同时HappyHorse 1.0的焦段运用接近实拍减轻了视频的“AI感”让观感更加真实其镜头运动也比较自然。结语一匹有潜力的“快乐小马”从体验感受来看HappyHorse 1.0可以是一款不错的视频生成模型其较强的指令遵循能力为专业创作者提供了更多的精细化控制的空间一定程度上降低了反复抽卡、试错带来的资源浪费。然而HappyHorse 1.0的画面还有不少可提升的空间比如画面的“油腻感”、物理准确性等等。随着进一步迭代这一模型有望在真实生产场景中发挥更大作用。