深入了解那些知名的端到端机器学习平台
Software Heritage 会定期抓取 GitHub 等开源代码网站,有点像定期抓取网页的互联网档案馆(Internet Archive)。开发者也可以请求 Software Heritage 抓取自己的库留作存档。 起初,DiCosmo 并没有考虑去 Software Heritage 找自己的代码,因为在他开发 OcamlP3l 的时候,Software Heritage 还没出现。他猜测,一定是有人将他的代码传到了 Gitorious 托管平台,而 Software Heritage 又在该平台关停之前抓取了上述代码。 你的文档还在吗? 「在一个组织良好的项目里,文档的行数超过代码行数不是什么稀罕事儿,」加州大学伯克利分校的一位计算可复现性倡导者表示,「你要保留尽可能多的信息,对分析的结构有更广泛的描述,比如数据从哪儿来,数据、代码的一些元信息等,这些是复现的关键。」 Melanie Stefan 是爱丁堡大学的一位神经科学家,她想复现一个用 SBML 写的计算模型。尽管模型都在,但她却找不到自己当年用的参数值(如分子浓度),也没有很好地记录数据标准化的关键细节。 因此,Stefen 无法复现她的部分研究。「即使对于同一个人来说,很多十几年前再明显不过的模型细节现在也不明显了,真是令人始料未及!」她面无表情地说道。 你有运行代码的硬件吗? 作为比赛的组织者,Rougier 也参加了这次挑战。他重现的代码是 Apple II 中的一个图像放大器,这是整个挑战赛中最古老的代码。这段代码写于 32 年前,当时写的时候 Rougier 才 16 岁,还发表在了一本名为《Tremplin Micro》的杂志上(已倒闭)。 如今,即使拿着神秘的 AppleSoft BASIC 语言说明,他也不记得代码是怎么运行的了。「真是见了鬼了,这可是我自己写的,」Rougier 惆怅地说道。
但是,他可以在网上找到这段代码并使其在一个网页版 Apple II 模拟器上运行。要做到这点并不难,Rougier 表示,最难的部分是让它在一个真正的 Apple II 上运行。 但是,为了消除这两种情况的歧义,本文将前者称为「间隔(margin)」,将后者称为「最小间隔(minimum margin)」。 Hard-SVM(原始形式)解决了最大化最小间隔的问题。Soft-SVM 解决了另一个更简单的问题——最大化期望 soft-margin(最小化期望 Hinge 损失)。这个问题很容易解决,hinge 损失确保远离边界的样本不会对假重复 Hard-SVM 效果的尝试产生任何影响。 从这个角度看,最大化期望间隔(而不是最大化最小间隔)仍会导致最大间隔分类器,但是分类器可能会受到远离边界的点的影响(如果不使用 Hinge 损失的话)。因此,最大化期望间隔意味着最大化任何样本(即数据点)与决策边界之间的平均距离。这些方法就是最大间隔分类器(MMC)的示例。 为了尽可能地通用化,该研究设计了一个框架来导出 MMC 的损失函数。研究者观察到,该框架可以导出带有梯度惩罚的基于间隔的目标函数(目标函数 F 的形式为 F(yf(x)))。这就意味着标准 GAN、最小二乘 GAN、WGAN 或 HingeGAN-GP 都是 MMC。所有这些方法(和 WGAN-GP 一样使用 L2 梯度规范惩罚时)都能最大化期望 L2 范数间隔。 研究者还展示了,使用 Lipschitz-1 判别器的大多数 GAN(谱归一化 HingeGAN、WGAN、WGAN-GP 等)都可被表示为 MMC,因为假定 1-Lipschitz 等效于假定有界梯度(因此可作为一种梯度惩罚形式)。 重要的是,这意味着我们可以将最成功的 GAN(BigGAN、StyleGAN)看作 MMC。假定 Lipschitz-1 判别器一直被看作实现优秀 GAN 的关键因素,但它可能需要一个能够最大化间隔的判别器和相对判别器(Relativistic Discriminator)。该研究基于 MMC 判别器给伪生成样本带来更多梯度信号的事实,阐述了其优点。 在这一点上,读者可能有疑问:「是不是某些间距比其它间距更好?是的话,我们能做出更好的 GAN 吗?」 这两个问题的答案都是肯定的。最小化 L1 范数的损失函数比最小化 L2 范数的损失函数对异常值更具鲁棒性。基于这一事实,研究者提出质疑:L1 范数间隔会带来鲁棒性更强的分类器,生成的 GAN 也可能比 L2 范数间隔更佳。 重要的是,L1 范数间隔会造成 L∞ 梯度范数惩罚,L2 范数间隔会造成 L2 梯度范数惩罚。该研究进行了一些实验,表明 L∞ 梯度范数惩罚(因使用 L1 间隔产生)得到的 GAN 性能更优。 此外,实验表明, HingeGAN-GP 通常优于 WGAN-GP(这是说得通的,因为 hinge 损失对远离边界的异常值具有鲁棒性),并且仅惩罚大于 1 的梯度范数效果更好(而不是像 WGAN-GP 一样,使所有的梯度范数逼近 1)。因此,尽管这是一项理论研究,但研究者发现了一些对改进 GAN 非常有用的想法。 使用该框架,研究者能够为 Relativistic paired (Rp) GAN 和 Relativistic average (Ra) GAN 定义决策边界和间隔。人们常常想知道为什么 RpGAN 的性能不如 RaGAN,在这篇文章中,研究者对此进行了阐述。
使用 L1 范数间隔的想法只是冰山一角,该框架还能通过更具鲁棒性的间隔,设计出更优秀的 GAN(从而提供更好的梯度惩罚或「光谱」归一化技术)。最后,对于为什么梯度惩罚或 1-Lipschitz 对不估计 Wasserstein 距离的 GAN 有效,该研究也提供了明确的理论依据,更多细节可参考原论文。 (编辑:长春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |