BoxDiff:一种训练免费的文本到图像合成方法

站长之家(ChinaZ.com)8月11日 消息:最近的文本到图像生成模型展现出惊人的图像合成能力,但目前研究主要集中在通过文字提示合成图像上。尽管已有尝试使用其他模式作为条件,但培训这些模型仍需大量配对数据和微调。由于获取这种数据耗时且有限,限制了在开放环境中的应用。

论文地址:https://arxiv.org/abs/2307.10816

为了解决这个问题,研究人员推出了一种训练免费的文本到图像合成方法BoxDiff,可以根据用户提供的简单条件(如盒子或涂鸦)来控制合成图像中的对象和背景。

论文提出了三种空间约束,即内盒约束、外盒约束和角落约束,并将其无缝集成到扩散模型的去噪步骤中。这种方法不需要额外的训练和大量注释的布局数据。实验结果表明,所提出的约束可以控制图像中的内容和位置,同时保持稳定扩散模型合成高保真度和多样性概念覆盖的能力。