多模态大语言模型
-
苹果开源名为多模态大语言模型引导的编辑(MGIE),可通过指令修改图片
苹果发布了一项名为多模态大语言模型引导的编辑(MGIE)的新技术,该技术可以帮助用户通过自然语言指令来修改图片,使得编辑图片变得更加简单和自然。 MGIE利用多模态大型语言模型(MLLMs)生成图像编辑指令,并通过端到端训练来捕捉视觉想象力并执行图像处理操作。该方法在ICLR’24上获得了Spotlight成果。 多模态大语言模型引导的编辑技术(MGIE)不仅可以帮…