Groma

开源项目

通过区域性图像编码来提升多模态大模型的感知定位能力：Groma

Groma，这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入，并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中，Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。核心思路是将定位任务转移到多模态大模型的vision tokenizer中，利用其空间理解能力定位…

2024年5月27日