◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇   对周志华教授争议论文的一些看法   作者:trapa   最近关于南京大学周教授论文的讨论,正方反方似乎说的都有道理。外行一 定看得一头雾水,我也是一样感觉。后来狠狠心,把文章找来读了读,尽管数学 公式很多,我现在的研究方向也不是人工智能和机器学习,但基本意思还是能看 个大概明白。现在把我的看法说说,尽量通俗易懂一点。   先普及一下这些论文研究的问题 。有一堆数据, 要找个好的function拟合 这些数据。人工智能里面一个所谓人工神经网络的方法。就是创建一个网络(数 学上等价于一个函数,当然大多数没有closed form),然后用数据训练,就像 传统的 回归分析,目的是减少预测的误差,比如最小方差等。如何创建网路, 如何选择训练数据集,如何从多个网络中选择最好的网络都是学者们研究的问题。 传统的方法即使产生多个网络,最后只选择一个用。好了,现在来看看两篇论文 的主要内容和贡献。   P&C理论上分析证明了在一定条件下,把多个网络平均(集成)起来得到的 结果比单个网络好,也就是误差更小。该论文的主要贡献是从理论上证明了这个 结果。作为附加的讨论(section 6), 作者讨论了不集成所有的网络,而是只 集成其中一部分。作者特别讨论了当一些网路很相似的时候,集成所有的网路会 使结果更差,所以应该把冗余的网络去掉,并且指出这些信息都可以从相关矩阵 里面得到。另外,推导了一个不等式,用它可以决定是否要把新的网路加到集成 里面。原文“One simple extension of the ensemble methods presents in this paper is to consider estimators of all of the possible populations which are subsets of the original populations. If for example two networks in the population are very similar, …. will lead to very poor results. Thus… it is important to remove all duplicate (or nearly duplicate) networks from the population. Removing duplication can be easily done by examine the correlation matrix.” 。 再总结一下就是,这篇论文证明了把多个网络集成起来比单个好,理论上把所有 集成起来好,但在实践中,冗余的网络会使结果更坏,这个结果可以从前面的证 明中得出。这篇文章理论很强。第二作者何人?1972年诺贝尔物理学奖获得者。 但是两个作者都不是计算机背景,实验结果部分不是重点。   再来看看周教授的论文。周声称的贡献三点。一是大家都说把所有网络集成 起来好,我们理论上分析了集成一些可能比集成所有好。二是如何选择要集成的 网路。三是实验和结果。贡献一就是在Section 2里面用一堆公示推演什么情况 下many could be better than all。不用细看推导,看看最后的方程(17)和 由此得出的结论就清楚了。周在论文说“很明显在有些情况下方程17成立(集成 所有网络误差会更大)。一个极端的例子就是当所有网络都是一个网络的重复 时,…”。原文“It is obvious that there are cases where Eq. (17) is satisfied. For an extreme example, when all the component neural networks are the duplication of the same neural network, Eq. (17) indicates that the size of the ensemble can be reduced without sacrificing the generalization ability”。可以把冗余的的去掉,这不就是 P&C的推论吗?周一再声称P&C是说All is better。实际上P&C的理论很general, 当有冗余时,结果很变差是他们前面结果的直接推论。事实上,他们论文也明确 指出了这一点。再看贡献二, 周文用遗传算法挑选要集成的网络,P&C论文指出 冗余信息可以从相关矩阵中得到。周文同样用了相关矩阵,实现上用了神经网络。 我的看法是理论上没贡献,实现算一个小贡献。最后的实验和结果部分,包括了 很多结果,这算是该文的最大贡献吧。   好了,说说我的看法。   1. 周文的主要理论贡献完全在P&C中, 周等人显然是读了P&C的论文,根 据P&C的理论实现了一个系统,并且进行了系统的评价和验证。这样写篇论本来 也没什么不可以。但是没有了那些理论的贡献,这篇论文显然不可能达到IJCAI 的标准,更不用说Best Student Paper。计算机研究与发展杂志是可以的。但这 不是问题的重点,问题的关键是这个文章的写法,idea明明是从P&C来的,也清 楚P&C的工作,却把它略过不谈,实在是令人费解。事实上,我认为如果周的论 文只能引用一篇论文,那就应该是P&C。我觉得正常的写法应该是,集成网络大 家做了很多研究,P&C的论文证明把多个网络集成起来可以提高性能,并且指出 当网络有冗余的时候,性能会变差。基于这个理论,我们这篇论文系统分析研究 证实了这个问题… 当然这么写, 论文是基本不能被IJCAI录用。IJCAI是人工智 能最好的会议(计算机界最好的结果都先发表在会议上,杂志更像archive)。 不过如果这么写被IJCAI录用,大家最多就说他们运气好也就完了。现在最大的 问题不是周的这篇论文贡献有多大,而是作者这篇文章的写法显然违背常理和学 术界的伦理。   2. 为什么IJCAI接受了周的论文。看看P&C的两个作者,两人都不是人工智 能和计算机圈子的人,搞了理论,以后也没在这个方向继续。   3. Bottom line。 周的论文肯定是基于P&C论文的,理论上没贡献,系统 实现和实验结果是贡献,好好写,一般decent会议有机会。但是不谈P&C,声称 理论也是自己的贡献是不可接受的。如果P&C也是这个圈子的人,估计早出麻烦 了。   4. 周的答复很令人失望,明显误导读者。   5. 一稿中英两投还可以理解的话,一篇论文两个扩展发到两个杂志非常过 分。   6. 最后,写论文如灌水,就那么回事。   最后我打个通俗易懂的比方吧,不一定确切,就那么个意思。以前大家投资 就选一种:股票,基金,债券,银行存款。有个叫P&C的经济学家在理论上证明 了分散投资四种比只投资一种长期的收益更高,同时讨论了在实践中有时候投资 两种或者三种比所有四种更好,比如说熊市的时候就不投股票了(就是打个比 方)。后来有个叫ZHH的教授写了篇文章说,最近大家都讨论投资要分散投资所 有的四种,我们证明了其实投其中几种可能比所有的四种更好,比如熊市的时候 不投股票了,我们理论上分析,然后实现了个系统,通过实验证实了我们的结果。 贡献如何,大家自家评价吧。   Perrone&Cooper论文 http://www.physics.brown.edu/physics/researchpages/ibns/Cooper%20Pubs/125_WhenNetsDisagree_93.pdf。 以下简称P&C。   周的论文 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/aij02.pdf   P&C第二作者Leon N Cooper是1972年诺贝尔物理学奖,呵呵。 http://www.physics.brown.edu/physics/researchpages/ibns/cooperpubsframeset.htm (XYS20091028) ◇◇新语丝(www.xys.org)(xys4.dxiong.com)(www.xysforum.org)(xys2.dropin.org)◇◇