具备OCR能力,可解读4K图片的多模态开源项目

具备OCR能力,可解读4K图片的多模态开源项目

在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,具备强大的多模态对话能力和OCR能力,可用于解析图片,为图片配文等(比如根据图片写小红书文案)

体验地址:

https://huggingface.co/spaces/OpenGVLab/InternVL

本文地址:https://www.163264.com/7123

(2)
上一篇 2024年5月3日 下午10:53
下一篇 2024年5月4日 上午7:21