Inception Labs 开发的一款基于扩散技术的大型语言模型（dLLM）- Mercury Coder,这玩意儿太快了……

2025年3月8日上午1:26 • 应用, 模型框架 • 阅读 1183

Inception Labs 开发的一款基于扩散技术的大型语言模型（dLLM）- Mercury Coder,这玩意儿太快了……

Table of Contents

技术特点

Mercury Coder 是由 Inception Labs 开发的一款基于扩散技术的大型语言模型（dLLM），专为高效编程和文本生成设计。

扩散模型机制：与传统的自回归模型（如 ChatGPT）不同，Mercury Coder 采用扩散模型技术，通过“从粗到细”的方式生成文本。它从纯噪声开始，逐步“去噪”生成连贯的文本。
并行生成：该模型能够并行处理多个 token，从而显著提高生成速度。
纠错能力：扩散模型的特性使其能够在生成过程中不断改进输出，纠正错误和幻觉。

性能表现

生成速度：Mercury Coder 在 NVIDIA H100 GPU 上的生成速度超过每秒 1000 个 token，比经过速度优化的自回归模型（如 GPT-4o Mini）快约 19 倍。
编程任务表现：在 HumanEval 基准测试中，Mercury Coder Mini 得分为 88.0%，在 MBPP 上得分为 77.1%，与 GPT-4o Mini 相当，但速度更快。

应用场景

代码生成与补全：Mercury Coder 能够快速生成高质量代码，适用于代码补全工具，显著提升开发者生产力。
会话 AI 应用：其快速响应能力使其在需要即时交互的对话场景中表现出色。
资源受限环境：由于其高效性，Mercury Coder 也适用于移动设备和边缘计算场景。

优势总结

Mercury Coder 的主要优势在于其极高的生成速度和并行处理能力，同时保持了与传统模型相当的性能。它还具备纠错能力，能够生成更准确的文本和代码。

体验地址：

https://chat.inceptionlabs.ai

本文地址：https://www.163264.com/10653

mercury 模型生成

赞 (0)

0

智谱开源文生图模型CogView4,中文的开源图片模型来了

上一篇 2025年3月4日下午4:10

全新的图像生成模型Reve Image

下一篇 2025年3月21日下午9:05