深入了解那些知名的端到端机器学习平台

发布时间：2021-02-13 13:22:34 所属栏目：评论来源：互联网

导读：Software Heritage 会定期抓取 GitHub 等开源代码网站，有点像定期抓取网页的互联网档案馆（Internet Archive）。开发者也可以请求 Software Heritage 抓取自己的库留作存档。起初，DiCosmo 并没有考虑去 Software Heritage 找自己的代码，因为在他开发 Oca

Software Heritage 会定期抓取 GitHub 等开源代码网站，有点像定期抓取网页的互联网档案馆（Internet Archive）。开发者也可以请求 Software Heritage 抓取自己的库留作存档。

起初，DiCosmo 并没有考虑去 Software Heritage 找自己的代码，因为在他开发 OcamlP3l 的时候，Software Heritage 还没出现。他猜测，一定是有人将他的代码传到了 Gitorious 托管平台，而 Software Heritage 又在该平台关停之前抓取了上述代码。

你的文档还在吗？

「在一个组织良好的项目里，文档的行数超过代码行数不是什么稀罕事儿，」加州大学伯克利分校的一位计算可复现性倡导者表示，「你要保留尽可能多的信息，对分析的结构有更广泛的描述，比如数据从哪儿来，数据、代码的一些元信息等，这些是复现的关键。」

Melanie Stefan 是爱丁堡大学的一位神经科学家，她想复现一个用 SBML 写的计算模型。尽管模型都在，但她却找不到自己当年用的参数值（如分子浓度），也没有很好地记录数据标准化的关键细节。

因此，Stefen 无法复现她的部分研究。「即使对于同一个人来说，很多十几年前再明显不过的模型细节现在也不明显了，真是令人始料未及！」她面无表情地说道。

你有运行代码的硬件吗？

作为比赛的组织者，Rougier 也参加了这次挑战。他重现的代码是 Apple II 中的一个图像放大器，这是整个挑战赛中最古老的代码。这段代码写于 32 年前，当时写的时候 Rougier 才 16 岁，还发表在了一本名为《Tremplin Micro》的杂志上（已倒闭）。

如今，即使拿着神秘的 AppleSoft BASIC 语言说明，他也不记得代码是怎么运行的了。「真是见了鬼了，这可是我自己写的，」Rougier 惆怅地说道。

但是，他可以在网上找到这段代码并使其在一个网页版 Apple II 模拟器上运行。要做到这点并不难，Rougier 表示，最难的部分是让它在一个真正的 Apple II 上运行。

但是，为了消除这两种情况的歧义，本文将前者称为「间隔（margin）」，将后者称为「最小间隔（minimum margin）」。

Hard-SVM（原始形式）解决了最大化最小间隔的问题。Soft-SVM 解决了另一个更简单的问题——最大化期望 soft-margin（最小化期望 Hinge 损失）。这个问题很容易解决，hinge 损失确保远离边界的样本不会对假重复 Hard-SVM 效果的尝试产生任何影响。

从这个角度看，最大化期望间隔（而不是最大化最小间隔）仍会导致最大间隔分类器，但是分类器可能会受到远离边界的点的影响（如果不使用 Hinge 损失的话）。因此，最大化期望间隔意味着最大化任何样本（即数据点）与决策边界之间的平均距离。这些方法就是最大间隔分类器（MMC）的示例。

为了尽可能地通用化，该研究设计了一个框架来导出 MMC 的损失函数。研究者观察到，该框架可以导出带有梯度惩罚的基于间隔的目标函数（目标函数 F 的形式为 F(yf(x))）。这就意味着标准 GAN、最小二乘 GAN、WGAN 或 HingeGAN-GP 都是 MMC。所有这些方法（和 WGAN-GP 一样使用 L2 梯度规范惩罚时）都能最大化期望 L2 范数间隔。

研究者还展示了，使用 Lipschitz-1 判别器的大多数 GAN（谱归一化 HingeGAN、WGAN、WGAN-GP 等）都可被表示为 MMC，因为假定 1-Lipschitz 等效于假定有界梯度（因此可作为一种梯度惩罚形式）。

重要的是，这意味着我们可以将最成功的 GAN（BigGAN、StyleGAN）看作 MMC。假定 Lipschitz-1 判别器一直被看作实现优秀 GAN 的关键因素，但它可能需要一个能够最大化间隔的判别器和相对判别器（Relativistic Discriminator）。该研究基于 MMC 判别器给伪生成样本带来更多梯度信号的事实，阐述了其优点。

在这一点上，读者可能有疑问：「是不是某些间距比其它间距更好？是的话，我们能做出更好的 GAN 吗？」

这两个问题的答案都是肯定的。最小化 L1 范数的损失函数比最小化 L2 范数的损失函数对异常值更具鲁棒性。基于这一事实，研究者提出质疑：L1 范数间隔会带来鲁棒性更强的分类器，生成的 GAN 也可能比 L2 范数间隔更佳。

重要的是，L1 范数间隔会造成 L∞ 梯度范数惩罚，L2 范数间隔会造成 L2 梯度范数惩罚。该研究进行了一些实验，表明 L∞ 梯度范数惩罚（因使用 L1 间隔产生）得到的 GAN 性能更优。

此外，实验表明， HingeGAN-GP 通常优于 WGAN-GP（这是说得通的，因为 hinge 损失对远离边界的异常值具有鲁棒性），并且仅惩罚大于 1 的梯度范数效果更好（而不是像 WGAN-GP 一样，使所有的梯度范数逼近 1）。因此，尽管这是一项理论研究，但研究者发现了一些对改进 GAN 非常有用的想法。

使用该框架，研究者能够为 Relativistic paired (Rp) GAN 和 Relativistic average (Ra) GAN 定义决策边界和间隔。人们常常想知道为什么 RpGAN 的性能不如 RaGAN，在这篇文章中，研究者对此进行了阐述。

使用 L1 范数间隔的想法只是冰山一角，该框架还能通过更具鲁棒性的间隔，设计出更优秀的 GAN（从而提供更好的梯度惩罚或「光谱」归一化技术）。最后，对于为什么梯度惩罚或 1-Lipschitz 对不估计 Wasserstein 距离的 GAN 有效，该研究也提供了明确的理论依据，更多细节可参考原论文。

（编辑：长春站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!