一款基于大型语言模型的视觉与语言生成工具MiniGPT-5

一款基于大型语言模型的视觉与语言生成工具MiniGPT-5

看得懂图片的多模态大模型MiniGPT4

MiniGPT-5是一个基于大型语言模型的图像和语言生成模型。它采用了一种创新的交错式视觉和语言生成技术,通过“生成vokens”作为图像和文本输出之间的桥梁。该模型经过两个阶段的训练,无需对图像进行详细描述,同时结合了无分类器引导的指导方法,提高了图像生成的效果。在多个评估数据集上,MiniGPT-5在人类评估中表现出优秀的多模态输出能力。

项目地址:

https://github.com/eric-ai-lab/minigpt-5

一款基于大型语言模型的视觉与语言生成工具MiniGPT-5

来源:https://mp.weixin.qq.com/s/DUsL-L9BMjQ2J4SBzdXuYQ

本文地址:https://www.163264.com/5407

(0)
上一篇 2023年10月9日 下午8:35
下一篇 2023年10月9日 下午8:36