通过区域性图像编码来提升多模态大模型的感知定位能力:Groma

通过区域性图像编码来提升多模态大模型的感知定位能力:Groma

Groma,这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入,并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中,Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。

核心思路是将定位任务转移到多模态大模型的vision tokenizer中,利用其空间理解能力定位潜在物体,再交给大语言模型识别,实现文字内容和图像区域的关联,提升对话交互性和指向性。

项目地址:

https://groma-mllm.github.io/

本文地址:https://www.163264.com/7521

(0)
上一篇 2024年5月27日 下午1:12
下一篇 2024年5月28日 上午12:18