通过区域性图像编码来提升多模态大模型的感知定位能力：Groma

Groma，这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入，并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中，Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。

核心思路是将定位任务转移到多模态大模型的vision tokenizer中，利用其空间理解能力定位潜在物体，再交给大语言模型识别，实现文字内容和图像区域的关联，提升对话交互性和指向性。

项目地址：

https://groma-mllm.github.io/

本文地址：https://www.163264.com/7521