PhotoDoodle：让你的照片跳脱现实，在虚实间起舞

2025年3月2日下午10:44 • 应用 • 阅读 1249

“PhotoDoodle”是一种艺术化图像编辑工具，由新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和 Tiamat 团队联合推出。它可以通过文本提示词向写实照片添加涂鸦元素，实现虚实结合的图片效果。以下是其主要特点和功能：

PhotoDoodle：让你的照片跳脱现实，在虚实间起舞

Table of Contents

主要特点

两阶段训练策略：首先基于大规模数据预训练通用图像编辑模型 OmniEditor，然后用少量艺术家策划的前后图像对进行微调，捕捉特定的编辑风格。
位置编码重用机制：在源图像和目标图像之间共享相同的位置编码，确保生成结果的空间一致性，避免背景与装饰元素之间的错位。
无噪声条件范式：在生成过程中保留源图像的无噪声条件，防止背景内容在迭代去噪过程中被破坏，保持原始图像的细节和纹理。
条件流匹配损失函数：优化条件流匹配损失函数，指导模型学习从噪声到目标图像的生成路径，进一步提升编辑效果。

PhotoDoodle：让你的照片跳脱现实，在虚实间起舞

主要功能

艺术风格学习与复现：从少量艺术家提供的样本中学习独特的编辑风格，应用于新的图像编辑任务中。
装饰性元素生成：支持在照片上添加装饰性元素（如手绘线条、色彩块、装饰图案等），确保这些元素与背景无缝融合。
保持背景一致性：在编辑过程中，严格保留原始照片的背景内容，避免背景失真或风格被破坏。
指令驱动的编辑：基于自然语言指令控制图像编辑内容，实现精准的局部修改和风格化处理。
高效风格定制：借助低秩适应（LoRA）技术，仅需 30-50 对样本即可快速适配不同艺术家的风格，降低训练成本。

应用场景

数字艺术创作：艺术家和设计师可以利用 PhotoDoodle 快速生成具有独特风格的艺术作品，探索不同的创意表达方式。
商业设计：在广告、宣传材料等商业设计中，PhotoDoodle 可以帮助设计师快速生成符合品牌风格的图像，提高工作效率。
社交媒体分享：用户可以为自己的照片添加个性化的装饰效果，使照片更具艺术感和趣味性，吸引更多关注。

使用方法

环境配置：克隆 GitHub 仓库，创建并激活虚拟环境，安装所需的依赖库。
模型加载：从 Hugging Face 模型库加载预训练的 PhotoDoodle 模型权重。
推理过程：使用文本提示和条件图像进行推理，生成带有涂鸦元素的照片。

项目地址

GitHub 仓库：https://github.com/showlab/PhotoDoodle
HuggingFace 模型库：https://huggingface.co/nicolaus-huang/PhotoDoodle
arXiv 技术论文：https://arxiv.org/pdf/2502.14397。

体验地址：

https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU

本文地址：https://www.163264.com/10645

photodoodle 图像图像编辑

赞 (0)

0

Huggingface发布的从 1 到 1000 多个 GPU 训练集群上训练 LLMs 的全面指南

上一篇 2025年2月22日下午4:39

智谱开源文生图模型CogView4,中文的开源图片模型来了

下一篇 2025年3月4日下午4:10