轻松识别图片中的物体全开源模型 DetGPT 能看图、会聊天，还会跨模态推理和定位

开源代码：

https://github.com/OptimalScale/DetGPT

官方介绍：

https://detgpt.github.io/

Demo测试：

https://a8c09d45468d21dc66.gradio.live/

– 创建了一种新颖的物体检测器，可以在复杂用户指令下进行推理。

– 该检测器允许用户使用自然语言指令与之交互，而不是特定的物体名称。

– 该检测器能够找到目标物体，并提供准确和详细的关于其位置和特征的信息。

– 该检测器能够在用户指令和视觉场景的背景下进行推理。

– 该检测器可以解释用户指令并自动定位感兴趣的物体，适用于各种应用场景。

– 该检测器使用 BLIP-2 的视觉编码器来理解图像并提取图像特征。

– 该检测器开发了一个跨模态对齐函数，将图像特征映射到文本域，并利用 Vicuna/Robin 作为知识大脑。

– 该检测器使用一种现成的检测器 Grounding-DINO 来定位图像中的目标物体。

– DetGPT 的总体架构基于 MiniGPT-4。

– 该项目得以实现，得益于 LLaMA 团队和他们的开源项目。

Table of Contents

4，DetGPT 提供了超出人类常识的答案，例如识别富含钾的陌生水果。

本文地址：https://www.163264.com/3146