Google发现了远程工作的9条秘诀

发布时间：2021-02-13 13:23:12 所属栏目：评论来源：互联网

导读：Rougier 认为，尽管计算在科学研究中占有越来越重要的比重，但研究者很少披露自己的底层代码。即使他们给出了代码，别人也很难去执行，就连作者本人有时也会遇到麻烦。而且，随着编程语言、计算环境的演化，现在还能运行的代码过段时间可能就不行了。因此，

Rougier 认为，尽管计算在科学研究中占有越来越重要的比重，但研究者很少披露自己的底层代码。即使他们给出了代码，别人也很难去执行，就连作者本人有时也会遇到麻烦。而且，随着编程语言、计算环境的演化，现在还能运行的代码过段时间可能就不行了。

因此，「『十年代码复现挑战』的宗旨是找出那些十年之后仍然能够 work 的代码编写和发布技术，」Hinsen 表示。

这项比赛共吸引了 35 名参赛者。他们提出要复现 43 篇论文，其中 28 篇形成了可复现报告。这些论文涉及的语言包括 C、R、Mathematica 和 Pascal 等等，还有一位参赛者复现的不是代码，而是一个用 SBML（系统生物学标记语言）编写的分子模型。

当然，这条复现之路并没有想象中那么简单，有人代码找不到了，有人找到代码也不知道怎么运行。最后，他们通过这项比赛总结出了一些提高代码可复现性的技巧，可以为现在的工作提供借鉴。

老代码没那么容易 work

你的代码还在吗？

要完成这个挑战，首先你得找到自己当年的代码，有人在这一步就被卡住了。

Roberto DiCosmo 是法国国家信息与自动化研究所的一位计算机科学家，他在 1998 年的一篇论文中提到了一个名为「OcamlP3l」的并行编程系统。但在找遍自己和合著者的硬盘、备份之后，他也没能找到 OcamlP3l 系统的代码。

不过幸运的是，一个名为「Software Heritage」的源代码归档网站为他提供了一份备份。

在解释这一结果之前，我们需要了解一个关键要素。关于「间隔」有多种定义：

（1）样本与边界之间的最小距离；

（2）距边界最近的点与边界之间的最小距离。

定义（2）更为常用。但是如果使用此定义，那么 SVM 文献中所谓的「函数间隔（functional margin）」和「几何间隔（geometric margin）」就都不能被视为间隔。这可能会让人十分困惑。

理解这种差异更好的一种方式是：

将（1）视为「样本的间隔」；

将（2）视为「数据集的间隔」。

该研究将最大间隔分类器（MMC）的概念扩展到任意范数和非线性函数。支持向量机是 MMC 的一个特例。研究者发现，MMC 可以形式化为积分概率度量（Integral Probability Metrics，IPM）或具备某种形式梯度范数惩罚的分类器。这表明它与梯度惩罚 GAN 有直接关联。

该研究表明，Wasserstein GAN、标准 GAN、最小二乘 GAN 和具备梯度惩罚的 Hinge GAN 中的判别器都是 MMC，并解释了 GAN 中最大化间隔的作用。研究者假设 L^∞ 范数惩罚和 Hinge 损失生成的 GAN 优于 L^2 范数惩罚生成的 GAN，并通过实验进行了验证。此外，该研究还导出了 Relativistic paired (Rp) 和 average (Ra) GAN 的间隔。

这篇论文共包含几部分：在第二章中，研究者回顾了 SVM 和 GAN；第三章，研究者概述了最大间隔分类器（MMC）的概念；第四章，研究者用梯度惩罚解释了 MMC 和 GAN 之间的联系。其中 4.1 提到了强制 1-Lipschitz 等价于假设一个有界梯度，这意味着 Wasserstein 距离可以用 MMC 公式来近似估算；4.2 描述了在 GAN 中使用 MMC 的好处；4.3 假定 L1 范数间隔能够导致更具鲁棒性的分类器；4.4 推导了 Relativistic paired GAN 和 Relativistic average GAN 的间隔。最后，第五章提供了实验结果以支持文章假设。

SVM 是 MMC 的一个特例。MMC 是使间隔最大化的分类器 f（间隔指的是决策边界与数据点之间的距离）。决策边界是指我们无法分辨出样本类别的区域（所有 x 使得 f(x)=0）。

Soft-SVM 是一种特殊情况，它可以使最小 L2 范数间隔最大化。下图展示了实际使用中的 Soft-SVM：

（编辑：长春站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!