Bigganex:潜入Biggan的潜在空间

使用计算机算法来创造过去只有一小部分精通编程的神秘艺术的艺术家才能做到。但是随着深度学习算法的发明,例如风格转换和生成性对抗网络(gans——更多内容请看一点)。以及开源代码和预先培训的模型的可用性,对于任何有创造力和时间的人来说,它很快就会成为一个可接近的现实。正如《连线》简洁地说,“我们创造了自己的人工智能艺术,你也可以“

“我很快就看到了我的新人工智能艺术工作室Linux命令行的黑暗。几个小时的谷歌搜索,输入错误的命令,后来咕哝着诅咒,我正在画怪诞的肖像。我可能被合理地认为对电脑很好,但我不是编码员;我不及格地退出了编解码器。初学者容易上手在线javascript课程。虽然我喜欢视觉艺术,我从来没有表现出太多创造自己的能力。我对人工智能艺术的研究建立在对命令行(以及对现有代码和模型的访问)的基本熟悉之上。”

随着比根,甘斯世界上最新最伟大的。很快,全部的 种类 属于 那些与人工智能的创造无关的人正在和它一起玩耍,创造出奇怪而奇妙的人工智能创造。这些作品非常深奥有趣,我们被启发写这篇文章来突出它们。

尼尔斯·朱斯坦森的毕根艺术( 来源

图像合成入门

在我们深入调查有趣的Biggan创作之前,让我们做一些必要的技术说明(那些已经知道这些细节的人可以随意跳过)。图像合成是指从随机输入数据中生成真实图像的过程。这是通过生成对抗性网络(gans)实现的,2014年由Ian Goodfellow等人.GAN主要由两个网络组成:鉴频器和发生器。鉴别器的任务是判断输入图像是真是假,然而,该发生器被赋予随机噪声,并试图从训练数据的学习分布中生成真实的图像。

Gans在拥有数十万张图片的数据集上进行训练。然而,在处理大型数据集时,一个常见的问题是训练过程的稳定性。这个问题导致生成的图像不真实或包含一些伪影。所以,比根被介绍来解决这些问题。

越大越好

为了捕捉合成图像的细节,我们需要训练大的网络,即包含大量可训练参数的网络。主要是gans包含一个中等数量的可训练参数,即5000-1亿。

2018年9月,一篇题为Andrew Brock等人的“高保真自然图像合成的大规模氮化镓训练”。从DeepMind发布。Biggan是通过提供更大的网络和更大的批处理大小来扩展以前方法的版本。据报道:甘孜州从规模扩张中获益匪浅,我们训练的模型参数是现有技术的2到4倍,批量是现有技术的8倍。

最大的Biggan模型有一个惊人的3.557亿个参数。这些模型是在一个Google TPU的128到512核上进行训练的。它为图像合成提供了最先进的结果166.3和火焰离子化检测器9.6,与之前的最佳值相比,改进值为52.52,FID为18.65。FID(越低越好)和IS(越高越好)是量化合成图像质量的指标。结果令人印象深刻!找你自己:

屏幕截图-2018-12-18-AT-11.26.43-PM

Biggan模型是有条件的Gan,这意味着它们将类索引作为输入,从同一类别生成图像。此外,作者使用了一种层次潜空间的变体,将噪声矢量插入不同深度的发生器的多个层中。这允许潜在的载体作用于从不同层次提取的特征。用较少的术语来说,它使网络更容易知道生成什么。作者描述了与大规模甘氏杆菌有关的不稳定性。并创建了解决方案来减少不稳定性-我们不会深入了解细节,除此之外,这些解决方案还具有很高的计算成本。

潜在空间

潜在矢量是输入图像特征的低维表示。所有潜在向量的空间称为潜在空间。用符号$Z$表示的潜在矢量,表示生成器网络中的中间功能空间。生成器网络遵循包含两个网络的自动编码器的体系结构。第一部分,编码器,使用向下采样将输入图像编码为低维表示(潜在矢量)。第二部分,称之为解码器,使用向上采样重建图像的形状。潜在矢量的大小小于输入的大小(即,编码器的图像)。在对生成网络进行训练后,我们可以丢弃编码器部分,利用潜在矢量构造生成的图像。这很有用,因为它使模型的大小变小。

潜在矢量具有一维形状,通常从某个概率分布中取样,附近的向量表示相似的生成图像。从截断正态分布中提取Bigans潜在矢量。截断正态分布是一种正态分布,其中截断值以外的值被重新采样,以再次位于截断区域内。这是一个简单的图,显示了区域$[-2中截断的正态分布。2美元:

显然地,零点附近的点密度更大,截断区域附近的点稀疏。

可复制的结果使艺术易于接近

所以,Biggan是一个很酷的模特,但是为什么这么多人在它庞大的身躯下玩起来那么容易呢?一句话:再现性。

为了首先测试任何机器学习模型,您需要一个简单导入的模型的实现,并且您需要计算能力。Biggan的发电机网络在TF Hub上公开发布,在TensorFlow中实现的可重用机器学习模型库。一笔记本也张贴在种子库,谷歌的一个网站,在不同的机器学习文件上收集许多笔记本。

您可以使用打开笔记本谷歌合作伙伴,即使你没有GPU,也可以玩这个模型;合作者为研究目的提供了一个带有免费GPU的内核。笔记本电脑演示了如何导入三种不同分辨率的Biggan型号128,256和512。请注意,每个模型都接受三个输入:潜在向量(生成独特图像的随机种子),类,以及一个截断参数(它控制生成的图像的变化-有关详细说明,请参阅最后一节)。把这些模型公之于众,让艺术家和研究人员很容易创造出一些很酷的结果,在概念上缺乏深入的专业知识,或无法访问谷歌规模的资源。

比根的艺术创作

自从DeepMind发布Biggan的模型后,许多研究人员和艺术家一直在试验它。

Phillip Isola作者之一PIX2PIX苏铁类论文,演示如何通过在特定类的两个不同姿势之间插入来在Biggan上创建良好的三维效果:

马里奥·克林格曼,一个住在谷歌的艺术家,利用正弦函数显示了Biggan潜伏期内的良好旋转运动:

乔尔·西蒙展示了如何通过使用Ganbreeder在不同的类别间繁殖来产生真正美好多彩的艺术:

Devin Wilson艺术家,通过保持噪声种子和截断值相同,在不同种类的动物之间创建了一个简单的样式转换效果。

Gene Kogan艺术家和程序员,通过简单的数学运算,如加法,产生了不同种类的突变。

许多的许多的许多的更多。

理解毕根潜空间

让我们更深入地探讨如何在潜在空间中创建一些酷的实验。通过对潜在矢量和截断值的处理,可以对生成的图像的分布提供一定的指示;betway牛牛在过去的几周里,我试图理解这些变量和生成的图像之间的关系。如果你想复制这些实验,你可以运行这个笔记本.让我们来看一些例子。

育种

在这个实验中,我们在两个不同的类之间进行繁殖——也就是说,我们使用两个不同类的组合创建中间类。这个想法很简单,我们只是平均编码的类,并使用相同的种子作为潜在的载体。给定两个类$y_1$和$y_2$我们使用函数

$$\Hat Y=Ay+(1-a)Y$$

注意,使用$A=0.5$组合了这两个类别。如果$a<0.5$生成的图像将更接近$y_2$并且如果$a>0.5$生成的图像将类似于$y_1$。

头等舱(左)。插值图像$A=0.5$(中间)。二等舱(右)。

背景幻觉

在这个实验中,我们试图改变任意图像的背景,同时保持前景不变。注意,潜在向量中接近零的值主要控制生成图像中的主导类。我们可以使用$f(x)=\sin(x)$对不同的背景进行重新采样,因为它保留了接近零的值,所以$\sin(x)\sim x$

同一图像的一对幻觉背景。

自然变焦

我们试图放大某个生成的图像以观察其精细的细节。要做到这一点,我们需要增加潜在向量的权重。除非潜在向量中的每个值都具有值1或-1,否则这不会起作用。这可以通过将潜在向量中的每个值除以其绝对值(即$\frac z z美元)来实现。然后我们可以通过增加负值(如$-a\frac z z)来提供缩放。$

通过增加$A$的值在不同的级别缩放。

插值

插值是指在空间中特定已知数据点之间寻找中间数据点的过程。数据点越近,这些点之间的转换就越平滑。
插值函数的最简单形式是线性插值。假设两个向量$v_1$和$v_2$和$n$作为插值向量的数目,我们将插值函数评估为

$F(VY1),VY2n)=x v_2+(1-x)v_1,x \在\左边(0,frac 1 n,cDOTS,\压裂n n \右)$$

注意,如果$x=0$那么第一个数据点是$v_1$如果$x=1$最后一个数据点是$v_2$。

我用插值法创造了一个很好的缩放效果,叫做“甲虫的生活”。

截断技巧

之前对gans的研究对潜在载体$z\sim\mathcal n(0,i)$作为具有单位协方差矩阵的正态分布。另一方面,Biggan的作者在某个区域使用了截断正态分布。a]$a \in \mathbb r ^+$的值,其中该区域外的采样值重新采样以落在该区域内。这导致了IS和FID评分的更好结果。这种方法的缺点是减少了矢量采样的总体种类。因此,对于给定的网络G,样本质量和品种之间存在着权衡。

请注意,如果$A$很小,那么截断正态分布生成的图像变化不大,因为所有值都将接近零。在下图中,截断值从左到右随值的增加而变化。对于每一对,我们使用相同的截断值,但我们对一个新的随机向量重新取样。我们注意到生成的变量随着截断值的增加而增加。

最后的想法

可重用模型的可用性,开源代码,免费的计算能力让研究人员很容易,艺术家和程序员可以玩弄这些模型,创造一些很酷的实验。当Biggan在Twitter上被介绍时,我对它的工作原理一无所知。betway牛牛但是,在DeepMind的共享笔记本上进行实验,是我试图理解的动力,而不仅仅是原始文件中提到的内容,以及与社区分享我的思维过程.

然而,我们还远没有理解隐藏世界的潜在空间。潜伏期矢量是如何产生图像的?我们能通过调整潜在向量的某些特征来定义更多的可控内插图像吗?也许作为一个读者,你会通过探索现有的笔记本和尝试实现你自己的想法来帮助回答这些问题。