轻松识别图片中的物体全开源模型 DetGPT 能看图、会聊天,还会跨模态推理和定位

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

开源代码:

https://github.com/OptimalScale/DetGPT

官方介绍:

https://detgpt.github.io/

Demo测试:

https://a8c09d45468d21dc66.gradio.live/

– 创建了一种新颖的物体检测器,可以在复杂用户指令下进行推理。

– 该检测器允许用户使用自然语言指令与之交互,而不是特定的物体名称。

– 该检测器能够找到目标物体,并提供准确和详细的关于其位置和特征的信息。

– 该检测器能够在用户指令和视觉场景的背景下进行推理。

– 该检测器可以解释用户指令并自动定位感兴趣的物体,适用于各种应用场景。

– 该检测器使用 BLIP-2 的视觉编码器来理解图像并提取图像特征。

– 该检测器开发了一个跨模态对齐函数,将图像特征映射到文本域,并利用 Vicuna/Robin 作为知识大脑。

– 该检测器使用一种现成的检测器 Grounding-DINO 来定位图像中的目标物体。

– DetGPT 的总体架构基于 MiniGPT-4。

– 该项目得以实现,得益于 LLaMA 团队和他们的开源项目。

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

为什么 DetGPT 有吸引力?

1,DetGPT 定位目标对象,而不仅仅是描述图像。

2,DetGPT 理解复杂的指令,例如“寻找可以缓解高血压的食物”。

3,DetGPT 通过 LLM 推理准确定位目标对象。例如,它可以将香蕉识别为一种富含钾的食物,可以缓解高血压。

4,DetGPT 提供了超出人类常识的答案,例如识别富含钾的陌生水果。

轻松识别图片中的物体全开源模型 DetGPT  能看图、会聊天,还会跨模态推理和定位

来源:https://mp.weixin.qq.com/s/k4_uz24M6VRtCNniYQGWdw

本文地址:https://www.163264.com/3146

(1)
上一篇 2023年5月9日 下午11:11
下一篇 2023年5月10日 下午2:45