PandaGPT

应用

多模态生成模型PandaGPT:图像/视频、音频、文本、深度、热图、IMU

PandaGPT采用ImageBind编码输入数据，使用Vicuna跟踪语言指令。PandaGPT能够解锁数据在六个模态（图像/视频、音频、文本、深度、热图、IMU）中的各种新颖多模态能力，例如复杂的理解/推理、多轮对话等。图片/视频接地问答。图像/视频启发的创意写作。视觉和听觉推理。多模态算法。 Project Page: https://panda-gpt.github.…

2023年5月26日