Groma

  • 通过区域性图像编码来提升多模态大模型的感知定位能力:Groma

    Groma,这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入,并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中,Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。 核心思路是将定位任务转移到多模态大模型的vision tokenizer中,利用其空间理解能力定位…

    2024年5月27日