阶跃同时开源视频生成+实时语音模型

2025年2月19日上午12:16 • 开源项目 • 阅读 1716

阶跃同时开源视频生成+实时语音模型

2025年2月18日，阶跃星辰与吉利汽车集团联合开源了两款多模态大模型，其中包括全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

Table of Contents

阶跃Step-Video-T2V的特点

技术参数：模型参数量达到300亿，能够生成高达204帧、分辨率为540P的高质量视频。
核心能力：支持复杂运动场景、人物动态生成、视觉创意实现，并具备原生中英双语输入和精准的语义理解能力。
应用场景：适用于影视创作、广告制作、社交媒体内容生产等领域。

阶跃Step-Audio的特点

产品级开源：支持情绪表达、方言/语种切换、歌声生成及个性化音色复刻，实现自然对话交互。
技术突破：在汉语水平考试六级评测等测试中表现优异，尤其在中文语音生成质量上超越同类开源模型。
适用领域：可集成于智能座舱、客服系统、虚拟助手等场景，提升人机交互体验。

项目地址：

https://github.com/stepfun-ai/Step-Audio/tree/main

本文地址：https://www.163264.com/10543

github https 阶跃

赞 (0)

0

昆仑万维开源首个面向AI短剧创作的视频生成模型SkyReels-V1

上一篇 2025年2月18日下午11:59

微软发布开源OmniParser V2.0，秒变操控电脑AI智能体

下一篇 2025年2月19日上午12:18