Groma,这是一个具有视觉感知能力的多模态大型语言模型。Groma能够理解用户指定的区域输入,并将文本输出与图像联系起来。通过将区域标记集成到用户指令和模型响应中,Groma展现出在标准指代和定位基准测试中优越的性能。它是一个具有出色区域理解和视觉定位能力的多模态大型语言模型。
核心思路是将定位任务转移到多模态大模型的vision tokenizer中,利用其空间理解能力定位潜在物体,再交给大语言模型识别,实现文字内容和图像区域的关联,提升对话交互性和指向性。
项目地址:
https://groma-mllm.github.io/
本文地址:https://www.163264.com/7521