阿里云开源大规模视觉语言模型Qwen-VL,能读图会识物,基于通义千问7B打造,可商用

阿里云开源大规模视觉语言模型Qwen-VL,能读图会识物,基于通义千问7B打造,可商用

阿里开源大模型,又上新了~

继通义千问-7B(Qwen-7B)之后,阿里云又推出了大规模视觉语言模型Qwen-VL,并且一上线就直接开源。

具体来说,Qwen-VL是基于通义千问-7B打造的多模态大模型,支持图像、文本、检测框等多种输入,并且在文本之外,也支持检测框的输出。

举个例子,我们输入一张阿尼亚的图片,通过问答的形式,Qwen-VL-Chat既能概括图片内容,也能定位到图片中的阿尼亚。

测试任务中,Qwen-VL展现出了“六边形战士”的实力,在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了SOTA。

项目地址:

https://modelscope.cn/models/qwen/Qwen-VL/summary

本文地址:https://www.163264.com/5072

(0)
上一篇 2023年8月25日 下午5:26
下一篇 2023年8月29日 下午10:56