使用后期制作软件,在场景中真实地放置东西对计算机来说,比对人来说要困难得多。它不仅要求为所述对象确定适当的位置,而且要求预测目标位置上的对象的外观、比例、遮挡、姿态、形状等。 幸运的是,人工智能(AI)承诺提供帮助。NeurIPS 2018会议上的一篇论文中(上下文感知合成和匹配对象实例),首尔国立大学的研究人员,加州大学默塞德,和谷歌AI描述一个系统,学会把一个对象插入一个图像,在语义上,令人信服 。 在符合场景语义的图像中插入对象是一项具有挑战性和趣味性的任务。研究人员写道,这项任务与许多实际应用密切相关,包括图像合成、AR和VR内容编辑。这样的对象插入模型可以潜在地促进许多图像编辑和场景解析应用程序。 他们的端到端框架包括两个模块,决定了插入的对象,应该是和第二个决定它应该是什么样子,利用甘斯( GANs),或两个神经网络组成,试图区分生成的样本和实际样品。由于系统同时对插入的图像进行分布建模,因此两个模块可以相互互通并优化。 该论文的作者写道,这项工作的主要技术新颖之处在于,它构建了一个端到端的可培训神经网络,该网络可以从新对象的联合分布中对其可能的位置和形状进行采样。合成的对象实例既可以作为基于GAN的方法的输入,也可以从现有数据集中检索最近的所需部分,从而生成新的图像。 正如他们解释的那样,在这种情况下,生成器可以预测合理的位置,生成语义上一致的比例、姿势和形状的对象掩码,特别是对象如何在场景中分布,以及如何自然地插入对象,以便使其看起来是场景的一部分。随着时间的推移,在训练过程中,AI系统会根据场景学习不同的对象类别分布,例如在城市街道的图像中,人们往往在人行道上,而汽车通常在路上。 在测试中,研究人员通过插入形状逼真的物体,使模型优于基线。当将YOLOv3图像识别器应用于人工智能生成的图像时,检测合成目标能够以0.79的召回率。更能说明问题的是,在对亚马逊的(Mechanical Turk)公司员工进行的一项调查中,43%的人认为人工智能生成的物体是真实的。 研究人员写道,这表明我们的方法能够执行对象合成和插入任务。由于我们的方法是在什么地方和什么东西上联合建模的,因此可以用于解决其它计算机视觉问题。未来有趣的工作之一将是处理对象之间的遮挡。