有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火（1）

发布人：机器之心时间：2023-05-20 来源：工程师发布文章

如果甲方想把大象 P 转身，你只需要拖动 GAN 就好了。

在图像生成领域，以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理，这是一把双刃剑，因为迭代方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的。但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素。因此，GAN 方法很难扩展到非常复杂的数据集上，在实际应用方面，扩散模型比 GAN 方法更易于控制，这是 GAN 式微的原因之一。

当前，GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性，这通常缺乏灵活性、精确性和通用性。然而，一些研究者看重 GAN 在图像生成上的高效性，做出了许多改进 GAN 的尝试。

最近，来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN，能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

论文链接：https://arxiv.org/abs/2305.10973
项目主页：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

这种全新的控制方法非常灵活、强大且简单，有手就行，只需在图像上「拖动」想改变的位置点（操纵点），就能合成你想要的图像。

例如，让狮子「转头」并「开口」：

还能轻松让小猫 wink：

再比如，你可以通过拖动操纵点，让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片：

如果你也接到了「把大象转个身」的 P 图需求，不妨试试：

整个图像变换的过程就主打一个「简单灵活」，图像想怎么变就怎么变，因此有网友预言：「PS 似乎要过时了」。

也有人觉得，这个方法也可能会成为未来 PS 的一部分。

总之，观感就是一句话：「看到这个，我脑袋都炸了。」

当大家都以为 GAN 这个方向从此消沉的时候，总会出现让我们眼前一亮的作品：

这篇神奇的论文，已经入选了 SIGGRAPH 2023。研究者表示，代码将于六月开源。

那么，DragGAN 是如何做到强大又灵活的？我们来看一下该研究的技术方法。

方法概述

该研究提出的 DragGAN 主要由两个部分组成，包括：

基于特征的运动监督，驱动图像中的操纵点向目标位置移动；
一种借助判别型 GAN 特征的操纵点跟踪方法，以控制点的位置。

DragGAN 能够通过精确控制像素的位置对图像进行改变，可处理的图像类型包括动物、汽车、人类、风景等，涵盖大量物体姿态、形状、表情和布局，并且用户的操作方法简单通用。

GAN 有一个很大的优势是特征空间具有足够的判别力，可以实现运动监督（motion supervision）和精确的点跟踪。具体来说，运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标，然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程，直到操纵点达到目标。

DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络，因此它实现了高效的操作，大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑，用户可以对图像进行多次变换更改，直到获得所需输出。

如下图所示，DragGAN 可以有效地将用户定义的操纵点移动到目标点，在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是，本文的变形是在 GAN 学习的图像流形上进行的，它倾向于遵从底层的目标结构，而不是简单地应用扭曲。例如，该方法可以生成原本看不见的内容，如狮子嘴里的牙齿，并且可以按照物体的刚性进行变形，如马腿的弯曲。