Groq最近推出了全新的Whisper Large-V3模型,支持多种语言的语音转录和翻译功能,并提供免费开放的体验。该模型转录速度极快,用户上传视频后仅需几秒钟即可完成转录,极大提高了工作效率。Whisper API还提供了便捷的功能集成和灵活的开发方式,为用户带来更高效和准确的语音处理方案。Groq的这一创新将吸引更多用户体验,为开发者提供更多可能性,进一步提升生活质量和工作效率。Groq的技术实力和创新能力将继续引领人工智能领域的发展。
Groq’s Whisper API 语音处理功能总结
主要功能
Groq 的 Whisper API 提供强大的语音转文本和语音翻译功能,并使用与 OpenAI 兼容的 API 接口,方便用户集成到自己的应用程序中。
API 接口
语音转文本: https://api.groq.com/openai/v1/audio/transcriptions
语音翻译 (翻译为英文): https://api.groq.com/openai/v1/audio/translations
支持的模型
whisper-large-v3: 该模型在语音转文本和翻译任务中均提供最先进的性能。
音频文件限制
文件大小限制为 25 MB。
支持的输入文件类型:mp3, mp4, mpeg, mpga, m4a, wav, and webm。
如果文件包含多个音轨(例如,带有配音的视频),则仅转录第一个音轨。
音频预处理
Whisper 会在转录前将音频下采样至 16,000 Hz 单声道。建议在客户端执行此预处理以减小文件大小并允许上传更长的文件。
体验地址:
https://console.groq.com/playground
本文地址:https://www.163264.com/7695