多模态开源项目

开源项目

具备OCR能力，可解读4K图片的多模态开源项目

在多个基准测试上取得了接近GPT-4V和GeminiPro的性能，具备强大的多模态对话能力和OCR能力，可用于解析图片，为图片配文等（比如根据图片写小红书文案）体验地址： https://huggingface.co/spaces/OpenGVLab/InternVL

2024年5月3日