阶跃同时开源视频生成+实时语音模型

阶跃同时开源视频生成+实时语音模型

2025年2月18日,阶跃星辰与吉利汽车集团联合开源了两款多模态大模型,其中包括全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio

阶跃Step-Video-T2V的特点

  • 技术参数:模型参数量达到300亿,能够生成高达204帧、分辨率为540P的高质量视频。
  • 核心能力:支持复杂运动场景、人物动态生成、视觉创意实现,并具备原生中英双语输入和精准的语义理解能力。
  • 应用场景:适用于影视创作、广告制作、社交媒体内容生产等领域。

阶跃Step-Audio的特点

  • 产品级开源:支持情绪表达、方言/语种切换、歌声生成及个性化音色复刻,实现自然对话交互。
  • 技术突破:在汉语水平考试六级评测等测试中表现优异,尤其在中文语音生成质量上超越同类开源模型。
  • 适用领域:可集成于智能座舱、客服系统、虚拟助手等场景,提升人机交互体验。

项目地址:

https://github.com/stepfun-ai/Step-Audio/tree/main

本文地址:https://www.163264.com/10543

(0)
上一篇 3天前
下一篇 3天前

相关推荐