阿里云开源大规模视觉语言模型Qwen-VL，能读图会识物，基于通义千问7B打造，可商用

阿里开源大模型，又上新了~

继通义千问-7B（Qwen-7B）之后，阿里云又推出了大规模视觉语言模型Qwen-VL，并且一上线就直接开源。

具体来说，Qwen-VL是基于通义千问-7B打造的多模态大模型，支持图像、文本、检测框等多种输入，并且在文本之外，也支持检测框的输出。

举个例子，我们输入一张阿尼亚的图片，通过问答的形式，Qwen-VL-Chat既能概括图片内容，也能定位到图片中的阿尼亚。

测试任务中，Qwen-VL展现出了“六边形战士”的实力，在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，都取得了SOTA。

项目地址：

https://modelscope.cn/models/qwen/Qwen-VL/summary

本文地址：https://www.163264.com/5072