Google发现了远程工作的9条秘诀
Rougier 认为,尽管计算在科学研究中占有越来越重要的比重,但研究者很少披露自己的底层代码。即使他们给出了代码,别人也很难去执行,就连作者本人有时也会遇到麻烦。而且,随着编程语言、计算环境的演化,现在还能运行的代码过段时间可能就不行了。 因此,「『十年代码复现挑战』的宗旨是找出那些十年之后仍然能够 work 的代码编写和发布技术,」Hinsen 表示。 这项比赛共吸引了 35 名参赛者。他们提出要复现 43 篇论文,其中 28 篇形成了可复现报告。这些论文涉及的语言包括 C、R、Mathematica 和 Pascal 等等,还有一位参赛者复现的不是代码,而是一个用 SBML(系统生物学标记语言)编写的分子模型。 当然,这条复现之路并没有想象中那么简单,有人代码找不到了,有人找到代码也不知道怎么运行。最后,他们通过这项比赛总结出了一些提高代码可复现性的技巧,可以为现在的工作提供借鉴。 老代码没那么容易 work 你的代码还在吗? 要完成这个挑战,首先你得找到自己当年的代码,有人在这一步就被卡住了。 Roberto DiCosmo 是法国国家信息与自动化研究所的一位计算机科学家,他在 1998 年的一篇论文中提到了一个名为「OcamlP3l」的并行编程系统。但在找遍自己和合著者的硬盘、备份之后,他也没能找到 OcamlP3l 系统的代码。
不过幸运的是,一个名为「Software Heritage」的源代码归档网站为他提供了一份备份。 在解释这一结果之前,我们需要了解一个关键要素。关于「间隔」有多种定义: (1)样本与边界之间的最小距离; (2)距边界最近的点与边界之间的最小距离。 定义(2)更为常用。但是如果使用此定义,那么 SVM 文献中所谓的「函数间隔(functional margin)」和「几何间隔(geometric margin)」就都不能被视为间隔。这可能会让人十分困惑。 理解这种差异更好的一种方式是: 将(1)视为「样本的间隔」;
将(2)视为「数据集的间隔」。 该研究将最大间隔分类器(MMC)的概念扩展到任意范数和非线性函数。支持向量机是 MMC 的一个特例。研究者发现,MMC 可以形式化为积分概率度量(Integral Probability Metrics,IPM)或具备某种形式梯度范数惩罚的分类器。这表明它与梯度惩罚 GAN 有直接关联。 该研究表明,Wasserstein GAN、标准 GAN、最小二乘 GAN 和具备梯度惩罚的 Hinge GAN 中的判别器都是 MMC,并解释了 GAN 中最大化间隔的作用。研究者假设 L^∞ 范数惩罚和 Hinge 损失生成的 GAN 优于 L^2 范数惩罚生成的 GAN,并通过实验进行了验证。此外,该研究还导出了 Relativistic paired (Rp) 和 average (Ra) GAN 的间隔。 这篇论文共包含几部分:在第二章中,研究者回顾了 SVM 和 GAN;第三章,研究者概述了最大间隔分类器(MMC)的概念;第四章,研究者用梯度惩罚解释了 MMC 和 GAN 之间的联系。其中 4.1 提到了强制 1-Lipschitz 等价于假设一个有界梯度,这意味着 Wasserstein 距离可以用 MMC 公式来近似估算;4.2 描述了在 GAN 中使用 MMC 的好处;4.3 假定 L1 范数间隔能够导致更具鲁棒性的分类器;4.4 推导了 Relativistic paired GAN 和 Relativistic average GAN 的间隔。最后,第五章提供了实验结果以支持文章假设。 SVM 是 MMC 的一个特例。MMC 是使间隔最大化的分类器 f(间隔指的是决策边界与数据点之间的距离)。决策边界是指我们无法分辨出样本类别的区域(所有 x 使得 f(x)=0)。
Soft-SVM 是一种特殊情况,它可以使最小 L2 范数间隔最大化。下图展示了实际使用中的 Soft-SVM: (编辑:长春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |