
2025年2月18日,阶跃星辰与吉利汽车集团联合开源了两款多模态大模型,其中包括全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。
阶跃Step-Video-T2V的特点
- 技术参数:模型参数量达到300亿,能够生成高达204帧、分辨率为540P的高质量视频。
- 核心能力:支持复杂运动场景、人物动态生成、视觉创意实现,并具备原生中英双语输入和精准的语义理解能力。
- 应用场景:适用于影视创作、广告制作、社交媒体内容生产等领域。
阶跃Step-Audio的特点
- 产品级开源:支持情绪表达、方言/语种切换、歌声生成及个性化音色复刻,实现自然对话交互。
- 技术突破:在汉语水平考试六级评测等测试中表现优异,尤其在中文语音生成质量上超越同类开源模型。
- 适用领域:可集成于智能座舱、客服系统、虚拟助手等场景,提升人机交互体验。
项目地址:
https://github.com/stepfun-ai/Step-Audio/tree/main
本文地址:https://www.163264.com/10543