多模态大语言模型

  • 苹果开源名为多模态大语言模型引导的编辑(MGIE),可通过指令修改图片

    苹果发布了一项名为多模态大语言模型引导的编辑(MGIE)的新技术,该技术可以帮助用户通过自然语言指令来修改图片,使得编辑图片变得更加简单和自然。 MGIE利用多模态大型语言模型(MLLMs)生成图像编辑指令,并通过端到端训练来捕捉视觉想象力并执行图像处理操作。该方法在ICLR’24上获得了Spotlight成果。 多模态大语言模型引导的编辑技术(MGIE)不仅可以帮…

    2024年2月5日