Groq上线whisper-large-v3模型，140x speed factor，转录速度飞快

Groq最近推出了全新的Whisper Large-V3模型，支持多种语言的语音转录和翻译功能，并提供免费开放的体验。该模型转录速度极快，用户上传视频后仅需几秒钟即可完成转录，极大提高了工作效率。Whisper API还提供了便捷的功能集成和灵活的开发方式，为用户带来更高效和准确的语音处理方案。Groq的这一创新将吸引更多用户体验，为开发者提供更多可能性，进一步提升生活质量和工作效率。Groq的技术实力和创新能力将继续引领人工智能领域的发展。

Groq’s Whisper API 语音处理功能总结
主要功能
Groq 的 Whisper API 提供强大的语音转文本和语音翻译功能，并使用与 OpenAI 兼容的 API 接口，方便用户集成到自己的应用程序中。

API 接口
语音转文本: https://api.groq.com/openai/v1/audio/transcriptions
语音翻译 (翻译为英文): https://api.groq.com/openai/v1/audio/translations
支持的模型
whisper-large-v3: 该模型在语音转文本和翻译任务中均提供最先进的性能。
音频文件限制
文件大小限制为 25 MB。
支持的输入文件类型：mp3, mp4, mpeg, mpga, m4a, wav, and webm。
如果文件包含多个音轨（例如，带有配音的视频），则仅转录第一个音轨。
音频预处理
Whisper 会在转录前将音频下采样至 16,000 Hz 单声道。建议在客户端执行此预处理以减小文件大小并允许上传更长的文件。

体验地址：

https://console.groq.com/playground

本文地址：https://www.163264.com/7695

Groq上线whisper-large-v3模型，140x speed factor，转录速度飞快

相关推荐