多模态开源项目
-
具备OCR能力,可解读4K图片的多模态开源项目
在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,具备强大的多模态对话能力和OCR能力,可用于解析图片,为图片配文等(比如根据图片写小红书文案) 体验地址: https://huggingface.co/spaces/OpenGVLab/InternVL
在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,具备强大的多模态对话能力和OCR能力,可用于解析图片,为图片配文等(比如根据图片写小红书文案) 体验地址: https://huggingface.co/spaces/OpenGVLab/InternVL