通义万相视频生成模型在最新2.1版本

通义万相视频生成模型在最新2.1版本

通义万相视频生成模型在2025年1月9日发布了2.1版本,带来了多项新功能和技术升级。以下是新版通义万相的主要功能、能力及技术架构的详细介绍:

主要功能和能力

  1. 支持中文文字生成:通义万相2.1首次实现了中文文字视频生成功能,支持中英文视频生成,并且可以一键生成艺术字,提供多种视频特效选项,以增强视觉表现力。
  2. 增强时空上下文建模能力:通过自研的高效VAE和DiT架构,通义万相2.1显著增强了时空上下文建模能力,支持无限长1080P视频的高效编解码。
  3. 稳定展现复杂人物运动:能够稳定展现复杂人物运动,逼真还原现实物理规律,如碰撞、反弹、切割、挤压等。
  4. 影视质感与艺术风格转换能力:具备强大的影视质感与艺术风格转换能力,支持多种风格如卡通、油画等。
  5. 文生组图功能:采用IC-LoRA图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。

技术架构

  1. 自研VAE和DiT架构:通义万相2.1通过自研的高效VAE和DiT架构,显著提升了时空上下文建模能力。
  2. 时空全注意机制:在DiT的设计中,使用时空全注意机制,让模型能够更准确地模拟现实世界的复杂动态。
  3. 参数共享机制:引入参数共享机制,不仅提升了模型的性能,还有效降低了训练成本。
  4. 文本嵌入优化:针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。
  5. 创新的视频编解码方案:结合缓存机制与因果卷积,设计了一种创新的视频编解码方案,使模型可以对无限长的1080P视频进行高效编解码。

评测表现

通义万相2.1在视频生成领域的权威评测集VBench上登顶,超越了混元、海螺AI、Gen3、Pika等国内外视频生成模型。具体来看,VBench一共有16个评分维度,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,最终以总分84.7%的成绩斩获第一。

版本选择

通义万相2.1分为极速版和专业版,前者注重高效性能,后者瞄准卓越表现力。

实际应用示例

  • 切牛排视频:牛排的纹理清晰可见,表面覆盖着一层薄薄的油脂,闪烁着光泽,刀锋沿着肌肉纤维缓缓切入,肉质Q弹,细节拉满。
  • 人物特写视频:小女孩的面部表情、手部和肢体动作都很自然协调,风掠过头发也符合运动规律。
  • 中文文字视频:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来,文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。

通义万相2.1的这些新功能和技术升级,为AI视频生成带来了新的突破,特别是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展。

本文地址:https://www.163264.com/10252

(0)
上一篇 2025年1月10日 下午1:59
下一篇 2025年1月10日 下午2:02

相关推荐