教授人工智能以创建具有更多常识的视觉效果

2019-07-02 11:18:37

今天的智能手机通常使用人工智能(AI)来帮助我们拍摄更清晰,更清晰的照片。但是,如果可以使用这些AI工具从头开始创建整个场景呢?

麻省理工学院和IBM的团队现在已经完成了“ GANpaint Studio ”,这个系统可以自动生成逼真的摄影图像并编辑其中的对象。除了帮助艺术家和设计师快速调整视觉效果外,研究人员表示,这项工作可能有助于计算机科学家识别“虚假”图像。

麻省理工学院计算机科学与人工智能实验室(CSAIL)博士生David Bau将该项目描述为计算机科学家首次能够实际“用神经元绘制神经网络”之一 - 特别是流行类型网络称为生成对抗网络(GAN)。

GANpaint Studio 可在线获取作为交互式演示,允许用户上传他们选择的图像并修改其外观的多个方面,从更改对象的大小到添加全新的项目(如树木和建筑物)。

设计师的恩惠

由麻省理工学院教授安东尼奥·托拉尔巴(Antonio Torralba)牵头,作为麻省理工学院 - IBM沃森人工智能实验室的一部分,他指导该项目具有巨大的潜在应用。设计师和艺术家可以使用它来更快地调整他们的视觉效果。使系统适应视频剪辑将使计算机图形编辑器能够快速组成特定镜头所需对象的特定排列。(想象一下,例如,如果一位导演拍摄了演员的完整场景,但忘记在背景中包含一个对剧情很重要的物体。)

通过分析需要删除的“工件”单元,GANpaint Studio还可用于改进和调试正在开发的其他GAN。在不透明的AI工具使图像处理比以往更容易的世界中,它可以帮助研究人员更好地理解神经网络及其底层结构。

“现在,机器学习系统就是这些黑盒子,我们并不总是知道如何改进,有点像那些你必须通过击打它们而必须修复的旧电视机,”Bau,相关的第一作者说。有关由Torralba监督的团队的系统的论文。“这项研究表明,虽然开放电视并看看所有电线可能会让人感到害怕,但那里会有很多有意义的信息。”

一个意外的发现是系统实际上似乎已经学习了一些关于对象之间关系的简单规则。它以某种方式知道不要将某些东西放在它不属于的地方,就像天空中的窗户一样,它也会在不同的环境中创造出不同的视觉效果。例如,如果图像中有两个不同的建筑物,并且要求系统为两者添加门,则不会简单地添加相同的门 - 它们最终可能看起来彼此完全不同。

“所有绘图应用程序都将遵循用户指令,但如果用户命令将对象放在不可能的位置,我们可能决定不绘制任何内容,”Torralba说。“这是一个具有强烈个性的绘图工具,它打开了一个窗口,让我们了解GAN如何学会代表视觉世界。”

GAN是为相互竞争而开发的一组神经网络。在这种情况下,一个网络是专注于创建逼真图像的生成器,第二个是鉴别器,其目标是不被生成器欺骗。每次鉴别器“捕获”发生器时,它必须暴露内部推理以做出决定,这使得发生器能够不断变得更好。

“看到这项工作如何让我们直接看到GAN实际上学到的东西开始看起来有点像常识,真是令人兴奋,” 芬兰阿尔托大学副教授Jaakko Lehtinen说,他没有参与该项目。“我认为这种能力是拥有可以在人类世界中发挥作用的自主系统的关键踏脚石,这种系统是无限的,复杂的,不断变化的。”

剔除不需要的“假”图像

该团队的目标是让人们更好地控制GAN网络。但是他们认识到,随着权力的增加,滥用的可能性就像使用这些技术来医生照片一样。合着者朱俊艳表示,他相信更好地了解GAN - 以及他们所犯的错误 - 将有助于研究人员更好地消除伪造。

“你需要先了解你的对手才能防御它,”CSAIL的博士后朱说。“这种理解可能有助于我们更轻松地检测假图像。”

为了开发该系统,该团队首先确定了GAN内部与特定类型的对象(如树木)相关的单元。然后,它单独测试这些单元,看看是否摆脱它们会导致某些物体消失或出现。重要的是,他们还确定了导致视觉错误(工件)的单元,并努力将其移除以提高图像的整体质量。

IBM的研究科学家Hendrik Strobelt说:“每当GAN产生非常不切实际的图像时,这些错误的原因以前就是一个谜。” “我们发现这些错误是由特定的神经元触发的,我们可以沉默,以提高图像的质量。”

Bau,Strobelt,Torralba和朱与前CSAIL博士生Bolei Zhou,博士后助理Jonas Wulff和本科生William Peebles共同撰写了这篇论文。他们将于下个月在洛杉矶举行的SIGGRAPH会议上发表演讲。“这个系统为更好地理解GAN模型打开了一扇大门,这将有助于我们对GAN进行任何类型的研究,”Lehtinen说。