BoxDiff：一种训练免费的文本到图像合成方法

站长之家（ChinaZ.com）8月11日消息:最近的文本到图像生成模型展现出惊人的图像合成能力，但目前研究主要集中在通过文字提示合成图像上。尽管已有尝试使用其他模式作为条件，但培训这些模型仍需大量配对数据和微调。由于获取这种数据耗时且有限，限制了在开放环境中的应用。

论文地址:https://arxiv.org/abs/2307.10816

为了解决这个问题，研究人员推出了一种训练免费的文本到图像合成方法BoxDiff，可以根据用户提供的简单条件（如盒子或涂鸦）来控制合成图像中的对象和背景。

论文提出了三种空间约束，即内盒约束、外盒约束和角落约束，并将其无缝集成到扩散模型的去噪步骤中。这种方法不需要额外的训练和大量注释的布局数据。实验结果表明，所提出的约束可以控制图像中的内容和位置，同时保持稳定扩散模型合成高保真度和多样性概念覆盖的能力。