通义万相视频生成模型在最新2.1版本

2025年1月10日下午2:00 • 应用 • 阅读 2727

通义万相视频生成模型在最新2.1版本

通义万相视频生成模型在2025年1月9日发布了2.1版本，带来了多项新功能和技术升级。以下是新版通义万相的主要功能、能力及技术架构的详细介绍：

Table of Contents

主要功能和能力

支持中文文字生成：通义万相2.1首次实现了中文文字视频生成功能，支持中英文视频生成，并且可以一键生成艺术字，提供多种视频特效选项，以增强视觉表现力。
增强时空上下文建模能力：通过自研的高效VAE和DiT架构，通义万相2.1显著增强了时空上下文建模能力，支持无限长1080P视频的高效编解码。
稳定展现复杂人物运动：能够稳定展现复杂人物运动，逼真还原现实物理规律，如碰撞、反弹、切割、挤压等。
影视质感与艺术风格转换能力：具备强大的影视质感与艺术风格转换能力，支持多种风格如卡通、油画等。
文生组图功能：采用IC-LoRA图像生成训练方法，增强文本到图像的上下文能力，轻松实现关联图像间的组合生成。

技术架构

自研VAE和DiT架构：通义万相2.1通过自研的高效VAE和DiT架构，显著提升了时空上下文建模能力。
时空全注意机制：在DiT的设计中，使用时空全注意机制，让模型能够更准确地模拟现实世界的复杂动态。
参数共享机制：引入参数共享机制，不仅提升了模型的性能，还有效降低了训练成本。
文本嵌入优化：针对文本的嵌入进行优化，实现更优的文本可控性的同时也减少了计算需求。
创新的视频编解码方案：结合缓存机制与因果卷积，设计了一种创新的视频编解码方案，使模型可以对无限长的1080P视频进行高效编解码。

评测表现

通义万相2.1在视频生成领域的权威评测集VBench上登顶，超越了混元、海螺AI、Gen3、Pika等国内外视频生成模型。具体来看，VBench一共有16个评分维度，通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分，最终以总分84.7%的成绩斩获第一。

版本选择

通义万相2.1分为极速版和专业版，前者注重高效性能，后者瞄准卓越表现力。

实际应用示例

切牛排视频：牛排的纹理清晰可见，表面覆盖着一层薄薄的油脂，闪烁着光泽，刀锋沿着肌肉纤维缓缓切入，肉质Q弹，细节拉满。
人物特写视频：小女孩的面部表情、手部和肢体动作都很自然协调，风掠过头发也符合运动规律。
中文文字视频：以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来，文字的笔画边缘模糊且自然，随着晕染的进行，水墨在纸上呈现“福”字，墨色从深到浅过渡，呈现出独特的东方韵味。

通义万相2.1的这些新功能和技术升级，为AI视频生成带来了新的突破，特别是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展。

本文地址：https://www.163264.com/10252

万相视频通义AI绘画软件哪个好用?海内外文生图 AI 产品应该都在这里了

赞 (0)

0

微软开源 140 亿参数小语言 AI 模型 Phi-4

上一篇 2025年1月10日下午1:59

Stability AI 推出 SPAR3D，能够在不到一秒的时间内从单个图像中生成精确的3D对象

下一篇 2025年1月10日下午2:02