苹果开源名为多模态大语言模型引导的编辑（MGIE），可通过指令修改图片

苹果发布了一项名为多模态大语言模型引导的编辑（MGIE）的新技术，该技术可以帮助用户通过自然语言指令来修改图片，使得编辑图片变得更加简单和自然。

MGIE利用多模态大型语言模型（MLLMs）生成图像编辑指令，并通过端到端训练来捕捉视觉想象力并执行图像处理操作。该方法在ICLR’24上获得了Spotlight成果。

多模态大语言模型引导的编辑技术（MGIE）不仅可以帮助用户编辑图片，还能够通过自然语言指令来实现对图像的各种修改，比如改变颜色、调整大小、添加特效等等。这种技术的出现，极大地简化了图像编辑的流程，让用户可以更轻松地完成他们想要的效果。

这一方法的创新之处在于将大型语言模型与图像编辑相结合，实现了更加智能和直观的图像处理。通过该项目，用户可以在图像编辑任务中更加自由地使用自然语言指令，而无需繁琐的描述或区域掩码。项目中详细说明了数据准备、训练和推断的步骤，为用户提供了便利。

该项目在图像编辑领域探索了新的可能性，为使用自然语言进行图像处理提供了一种创新的方法。在实现更加直观和自由的图像编辑过程中，这一方法有望为未来的计算机视觉和图像处理研究提供新的思路。

项目地址：

https://github.com/apple/ml-mgie

本文地址：https://www.163264.com/6491