开源代码:
https://github.com/OptimalScale/DetGPT
官方介绍:
https://detgpt.github.io/
Demo测试:
https://a8c09d45468d21dc66.gradio.live/
– 创建了一种新颖的物体检测器,可以在复杂用户指令下进行推理。
– 该检测器允许用户使用自然语言指令与之交互,而不是特定的物体名称。
– 该检测器能够找到目标物体,并提供准确和详细的关于其位置和特征的信息。
– 该检测器能够在用户指令和视觉场景的背景下进行推理。
– 该检测器可以解释用户指令并自动定位感兴趣的物体,适用于各种应用场景。
– 该检测器使用 BLIP-2 的视觉编码器来理解图像并提取图像特征。
– 该检测器开发了一个跨模态对齐函数,将图像特征映射到文本域,并利用 Vicuna/Robin 作为知识大脑。
– 该检测器使用一种现成的检测器 Grounding-DINO 来定位图像中的目标物体。
– DetGPT 的总体架构基于 MiniGPT-4。
– 该项目得以实现,得益于 LLaMA 团队和他们的开源项目。
为什么 DetGPT 有吸引力?
1,DetGPT 定位目标对象,而不仅仅是描述图像。
2,DetGPT 理解复杂的指令,例如“寻找可以缓解高血压的食物”。
3,DetGPT 通过 LLM 推理准确定位目标对象。例如,它可以将香蕉识别为一种富含钾的食物,可以缓解高血压。
来源:https://mp.weixin.qq.com/s/k4_uz24M6VRtCNniYQGWdw
本文地址:https://www.163264.com/3146