◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇ 对《南京大学教育部长江学者特聘教授周志华周志华等人为学术剽窃道歉》的澄清 作者:吴建鑫 方舟子先生,您好, 最近获悉您主办的新语丝网站刊登了一篇关于我以前发表论文的来信 (XYS20130104,题为“南京大学教育部长江学者特聘教授周志华周志 华等人为学术剽窃道歉”,作者“你是谁”)。该信中说“道歉信[1]刊 登在2010年12月份的人工智能(ARTIFICIAL INTELLIGEN CE)杂志上。周志华、吴建鑫等人承认[2]和[3]中有关如何选择 和集成神经网络的讨论部分不是原创并为此道歉。”(注:ARTIFICIAL INTELLIGENCE应为Artificial Intelligence,指“人工 智能”期刊,简称为AIJ。) “你是谁”在新语丝的来信称我们的文章“剽窃”并称我们“为此道歉”, 这是和事实严重不符的。周志华教授曾声明因时间宝贵,对网络上的 匿名指控不予回复,他仍认为清者自清,学术界自有公论;但“你是谁” 点名说我为“剽窃”而“道歉”,我认为有必要进行澄清。需要澄清的内 容包括两点: 第一点:“你是谁”的信中,曲解AIJ英文原文,所陈述内容与英文原文 中的事实严重不符。(我先提供一个英文原文中事实情况的总结,具 体细节请参考下面的英文原文。) 事实情况是,2010年在AIJ发表的是一个勘误(Corrigendum),而不是 “我是谁”声称的“剽窃道歉信”。更重要的是,AIJ的勘误包括两点结论: 我们(下述英文原文中论文[1]的作者)为没有在论文中适当的地方引 用论文[3]而致歉;我们的论文[1]的主要贡献(”main contributions”) 是原创(”original”)的。以上结论得到了AIJ的主编批准,是由AIJ编 委会成员和一位外部评审专家经过仔细审核以后得出的结论 (”culmination”)。此外,AIJ的主编、编委会和外审专家在此勘误中 选择的用词是“澄清”(“This clarification”),同样表明论文[1]中 不是所谓的“学术剽窃”。 由此显而易见,AIJ的主编、编委会和外审专家认为:论文[1]的主要贡 献是原创的(也就是说,根本不存在“我是谁”所谓的“学术剽窃”。) 同时,论文[1]存在疏忽之处,AIJ发表的勘误是为此疏忽致歉 (需要在 第2.1小节和公式29—32处引用论文[3]),但此疏忽不影响论文主要贡献 的原创性。 此外,“我是谁”将“Corrigendum/勘误”翻译为“道歉信”。这是非常误导 读者的。 以下是“我是谁”引用的勘误英文原文,发表于2010年: Artificial Intelligence Journal,Volume 174,Issue 18,Page 1570, 供方先生和新语丝的读者阅读并作出判断。 Corrigendum to “Ensembling neural networks: Many could be better than all” [Artificial Intelligence 137 (1–2) (2002) 239–263] In 2002,we published in Artificial Intelligence an extension [1] of a paper we presented at IJCAI-01 [2]. In Section 2 of the IJCAI-01 paper [2] and in Section 2.1 of the AIJ paper [1],we presented a criterion for selecting a subset of an ensemble of neural networks that could yield better performance than using all members of the ensemble for regression. The fundamental motivation for this criterion and its supporting details were ?rst presented in [3].Although we cited [3] on p.240 of our article [1],we failed to do so as the source for Section 2.1 and Eqs.(29)–(32) in Section 3,for which we apologize. The main contributions of our paper—the subset search strategy (GASEN) introduced in Section 3 after Eqs.(29)–(32),the extension of the criterion to classi?cation in Section 2.2,and the empirical analysis in Sections 4 and 5—are original. This clari?cation is the culmination of a thorough review of the papers [1–3] by the members of the AIJ Editorial Board and an expert external reviewer,and has been approved by the AIJ Editors-in-Chief. References [1] Zhi-Hua Zhou,Jian-Xin Wu,Wei Tang,Ensembling neural networks: Many could be better than all,Arti?cial Intelligence 137 (1–2) (May 2002) 239–263. [2] Zhi-Hua Zhou,Jian-Xin Wu,Yuan Jiang,Shi-Fu Chen,Genetic algorithm based selective neural network ensemble,in: Proceedings of 17th International Joint Conference on Arti?cial Intelligence,vol.2,2001, pp.797–802. [3] M.P.Perrone,L.N.Cooper,When networks disagree: Ensemble method for neural networks,in: R.J.Mammone (Ed.),Arti?cial Neural Networks for Speech and Vision,Chapman & Hall,New York,1993,pp.126–142. 为了方便读者,提供中文译文如下,译文仅供参考。 “Ensembling neural networks: Many could be better than all” [Artificial Intelligence 137 (1–2) (2002) 239–263]的勘误 2002年,我们在人工智能(译注:指Artificial Intelligence Journal, 简称AIJ)发表了此前于IJCAI-01(译注:IJCAI是人工智能领域的学术 会议)发表的论文[2]的扩展论文[1]。 在 IJCAI-01论文[2]的第2节和AIJ论文[1]的第2.1小节,我们提出了一个 从神经网络集成中选择一个子集的准则,其在回归分析中能获得比使用集 成中所有成员更好的效果。 这个准则及其支撑细节的基本动机首次发表于论文[3]。尽管我们在论文 [1]的第240页引用了论文[3],在第2.1小节和第3节的公式(29)—(32),我 们没有引用论文[3]作为源头,为此我们致歉。我们论文的主要贡献是原创 的(第3节在公式(29)—(32)之后提出的子集选择策略(GASEN),第2.2小 节将该策略扩展到分类问题,第4节和第5节的基于实验的分析。) 此澄清是AIJ编委会成员和一位外部评审专家对论文[1–3]进行详尽审查后 的结论,并且已经被AIJ的主编批准。 (注:参考文献与英文原文同,此处省略。) 第二点:AIJ的勘误发表于2010年,至今已经两年多了。其中一个重要结论 是论文[1]的主要贡献是原创的。我相信,对于从事集成(ensemble)相关 研究的人员来说,AIJ编委会和专家的上述结论(即我们的论文[1]主要贡 献为原创)很容易理解并被接受。然而,此领域外的读者可能需要一些背 景知识的介绍。下面介绍一些具体的背景和技术细节,希望能帮助对此问 题感兴趣但不从事集成研究的读者做出独立判断,从而澄清此前新语丝来 信中对论文[1]的一些所谓的“剽窃指控”。 以下的内容比较长,也比较技术化,但是已经尽力使得其内容通俗易懂, 相信应该能被不从事这方面研究的人员理解。 (注:由于下面的内容包含公式和排版信息,建议阅读PDF版附件) 先给出相关文章的链接: [PC93] Perrone博士等人1993年的文章: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.32.3857&rep=rep1&type=pdf  [AI02] 我们在AIJ 2002年的文章(即上述勘误中的论文[1]): http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.9955&rep=rep1&type=pdf  为什么我们的主要贡献是原创的: [一] 两项工作的主要内容和结论不同 1) [PC93] 研究的问题是“把所有网络进行集成比使用单一网络更好”。 文章摘要的第4-5行就明确指出,他们方法的首要性质就是“高效地 使用所有网络—不需要放弃任何一个网络”(“It efficiently uses all the networks of a population – none of the networks need be discarded”)。具体来说,他们对回归学习问题进行研究,在第 2节和第4节分别提出了两个方法BEM和GEM,两个方法都试图把所有网 络进行集成;在第3节和第5节分别对这两个方法进行实验验证。 2) 我们研究的问题是“把所有网络进行集成不如选择一部分网络进行集 成”。我们AIJ文章的标题就明确指出“many could be better than all”,摘要第4行明确说明我们的工作“显示出集成一部分而不是全部 网络会更好”(“it may be better to ensemble many instead of all of the neural networks at hand”)。我们在工作中考虑了回归、 分类两方面,在第3节提出了GASEN方法从所有网络中选择一部分进行 集成,在第4节对回归、分类两种情况进行实验验证,在第5节进行 bias-variance分析。 3) 预测型学习任务包括分类和回归两大情形,只对回归进行研究是不能 得出一般性结论的。我们在IJCAI-01的会议版只研究了回归情形,在 AIJ 02期刊版中对分类和回归都进行了研究,因此我们在AIJ 02期刊 版中得出了“many could be better than all”这个具有一般性的结 论。[PC93]只对回归进行研究。 4) 从学术思想来看,[PC93]是希望把所有网络都进行集成,而我们是不 希望把所有网络进行集成。Perrone博士在发表上述文章后,在1993 年底的NIPS’93会议发表了另一篇文章,题目就是“Putting it all together”,由此也可以清楚地看出他的学术思想和我们是不同的。 [二] 关于文章中的公式 我们AIJ论文[1]的第2.1节包括17个公式(IJCAI会议版第2节包括20个公式; IJCAI-01会议版中公式9-10和18是显然可得,因此在AIJ文章中省略了,其他 公式都一样);此外还有AIJ 文章的公式29-32(即IJCAI-01会议版中公式21- 24)。下面具体分析这些公式: 1) 式1-13(IJCAI会议版的式1-15)是常识知识,介绍误差、相关性等的定义, 这些公式中有几个在[PC93]中有等价形式的公式出现,但是这些常识性的公 式在很多书籍文献中都有,并且被大量文献不加引用地使用。下面具体说明: a) 式1-2定义了什么是“权值”,式3-4定义了什么是“加权平均”,这些都是 非常基础的知识,可以容易地在很多文献中看到:例如,[Markowitz, 1952]的p.78的公式,[NNPR,1995]的公式9.95,[KV,1995]的公式1, [Rosen,1996]的公式4,[SK,1996]的公式1,[Wanas,2003] 的公式3.8 以及3.8之前的公式,等等。 [Markowitz,1952]: H.Markowitz,“Portfolio selection”,The Journal of Finance,Volume 7,Issues 1,March 1952,Pages 77-91. http://onlinelibrary.wiley.com/doi/10.1111/j.1540-6261.1952.tb01525.x/pdf (这是一篇50年代的著名文献,在GoogleScholar上被引用18,600余次) [NNPR,1995]: C.Bishop,“Neural Networks for Pattern Recognition”,Oxford University Press,1995. http://nguyendangbinh.org/LyThuyetNhanDang/TaiLieuThamKhao/Neural%20Networks%20for%20Pattern%20Recognition.pdf (这是本领域一本非常著名的教科书,在GoogleScholar上被引用18,200 余次) [KV,1995]: A.Krogh and J.Vedelsby,“Neural network ensembles,cross validation,and active learning”,NIPS’1995. http://books.nips.cc/papers/files/nips07/0231.pdf (这是集成学习领域最经典的文献之一,在GoogleScholar上被引用1200 余次) [Rosen,1996]: B.Rosen,“Ensemble learning using decorrelated neural networks”,Connection Science,Volume 8,Issues 3-4,1996,pages 373-383. http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.8.9813 (这是集成学习领域的重要文献之一,在GoogleScholar上被引用200余次) [SK,1996]: P.Solich and A.Krogh,“Learning with ensembles: How overfitting can be useful”,NIPS’1996. http://books.nips.cc/papers/files/nips08/0190.pdf (这是集成学习领域的重要文献之一,在GoogleScholar上被引用200余次) [Wanas,2003]: N.Wanas,“Feature based architecture for decision fusion”, Phd Thesis,University of Waterloo,2003. https://pami.uwaterloo.ca:8443/pub/nwanas/thesis.pdf (这是一篇国际一流大学的博士论文) b) 式5-6定义了什么是一个样本的“误差”,式7-8定义了什么是一个数据集 上的“误差”。这也是非常基础的知识,可以容易地在很多文献中看到, 例如 [NNPR,1995]的公式9.80,[KV,1995] 的公式3-4、7、9,[Rosen, 1996]的公式1,[SK,1996]的公式2-3,[Wanas,2003]的公式3.7,等等。 c) 式 9-11定义了什么是“相关性”,这是一个基本概念,可以容易地在很多 文献中看到,例如[Markowitz,1952]的p.80的公式,[NNPR,1995]的公式 9.91,[KV,1995]的公式13,[Rosen,1996]的公式8,[Wanas,2003]的公 式3.9,等等。 d) 式12-13是基于“相关性”概念对“误差”项的重写,这也是基本的知识,可 以容易地在很多文献中看到,例如[NNPR,1995]的公式9.93-9.94,[Wanas, 2003] 的公式3.10-3.11,等等。值得指出的是,据我们所知,这个重写 甚至可以上溯到50年代的文献 [Markowitz,1952; p.81]。在90年代这已 经是常识知识,在[PC93]中也是未加引用地使用。 2) 式14-16在[PC93]中未出现。    3) 式17(下面第一个公式)是从式14-16推导得出。[PC93]中在第6节有一个公 式(下面第二个公式)在变形后与式17看起来相似,指控者认为这两个公式 相同,但是这两个公式实质完全不同! 我们的式17: [PC93]的公式: (注:以上公式在TXT版本中无法看到,可以查看附件中的PDF版本或从上述 论文网址下载论文原文。) a) 首先,两个公式在数学上不等价。在新语丝刊登的来信中上曾有人进行 “推导”,说上述两个式子是等价的;但他们在“推导”过程中,先假设我 们的N-1就是[PC93]公式中的N,然后又说我们的k就是N。但是他们做出 的这些假设是误导性的,例如:我们的k是一个变量,被他用常量N替换 之后已经发生了不等价变化。事实上,上述两个式子如果用相同的符号 系统重写,则分别得到下面两个式子(第一个是我们的式17,第二个是 [PC93]式子),可以容易地看出,这两个式子只是“形似”而已,数学上 完全不等价。 (注:以上公式在TXT版本中无法看到,可以查看附件中的PDF版本或从 网址http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/emfa-ch6.pdf 下载,第121页式6.3和式6.4)。 b) 第二,两个公式在语义上完全不同。仅举一例说明:给定网络N1,N2,…, N20,对N3,[PC93]的公式只考虑N3与N1和N2的相关性,不考虑N3与N4, …,N20的相关性;而我们的公式要考虑N3与所有的N1,N2,N4,…,N20的相 关性。进一步,对[PC93]的公式,当N3被加入集成后,此后在考虑N4,… ,N20时,N3始终不会被去掉;而在我们的公式中,在考虑N4,…,N20时, N3仍然可能被去掉。上述不同直接体现了这两项工作研究思路的不同, [PC93]是一种序列化、“一个一个网络逐渐加入”的方式生成集成,网 络一旦加入,就会一直保持;而我们的工作是考虑全部网络的信息之 后进行选择性集成,每一个网络都可能去除。关于“序列化”方法与“选 择性集成”的区别,我们将在下面第三部分进一步说明。 c) 值得注意的是, [PC93]中这个公式是出现在文章Conclusion节之前, 并没有出现在文章主要内容的第2至第5节,这个位置出现的小节通常 被称为“discussion”,是讨论对目前工作今后可能的扩展。如果细读 [PC93] 就可以发现,他们在这里是在讨论今后可能的对文章提出的 BEM和GEM的扩展,正因如此,[PC93] 中的这个公式前后没有理论推 导,这个公式之后也没有提出任何算法,更没有对算法的实验验证。 在计算机科学的研究中,没有理论推导、没有可行算法、没有实验验 证,尚不是一项“工作”;这就如同一个人声称“可以把全世界的计算机 连起来”,但是既没有给出理论分析,也没有可行算法,更没有实验 验证,大家不会认为他创造了“计算机网络”。 d) 如同AIJ 2010年的勘误中所说,Perrone博士等人的论文提出了一个 “基本动机”,即给出了Weighted Averaging(加权平均)这个基本框 架,通过对每个学习器赋予一个权重,然后进行加权结合;这是个非 常一般化的框架,它提供了集成学习进行回归研究的最基本动机,即 设法去确定权重。不同的权重确定方式导致不同的方法、甚至不同的 理论。例如,如果所有权值设定为1/n,则得到Bagging;如果权值通 过贝叶斯先验确定,则得到Bayesian combination;如果权值通过另 一个学习器学习产生,则得到Stacking。从这个意义上说,[PC93]为 我们的工作提供了基础:如果可以设法使得一些权重为0,就得到选 择性集成。因此AIJ编委会的调查认为论文[1]虽然已经引用论文[PC93], 但最好在两处相关的地方再次引用论文[PC93]。同时,由于上述的事 实:[PC93]工作的实质与论文[1]存在本质不同,因此,论文[1]的主 要贡献是原创的,不存在所谓的“剽窃”问题。 4) 式29-32是著名的 “拉格朗日乘子法”,这是一种众所周知的代数方法,并 非[PC93]的发明;例如式32出现在 [NNPR,1995]这本教科书的式9.98。我 们在AI文章的第246页式30的前一行(以及IJCAI’01文章式22的前一行) 明确说明了这是拉格朗日乘子法。我们引述这些公式,是为了说明直接使 用这样的传统技术是无效的,所以我们才需要提出我们自己的方法(也就 是说,式29-32在实际中是不能被使用的。我们在AI文章的式32之后,以及 IJCAI’01会议版的式24之后,明确写道“It seems that we can solve wopt from Eq.(32).But in fact,this equation rarely works well in real- world applications …”。) [三] 关于我们的论文是否“思想剽窃” 所谓“剽窃指控”中,有一个说法是 [PC93]有下面这样一段话,认为这段话可以 理解为论文[1]中的“many could be better than all”:“we can order the elements of the population according to increasing mean square error ...adding successively the ordered elements ...”([PC93]第12页第3段), “if a network does not satisfy this criterion,we can swap it with the next untested network in the ordered sequence”([PC93]第12页,第6节的最 后一段)。这是明显的误读,[PC93]说的是“按序逐渐加入”,以及“如果不满足条 件,我们将它与序列中下一个未测试过的网络交换”。 “many could be better than all”是出现在集成学习领域的研究论文中,因此, 它应该是在集成学习研究的语境下进行理解,而不能简单地直接从英文自然语言 的含义去理解。按照自然语言的理解,认为“只要有网络没有被使用,就是many could be better than all”,这是一种误解,原因如下: 1) 在集成学习领域,“序列化”地生成集成,即一个一个网络地加入集成, 这是一种常见的做法。通常在每加入一个网络时,都要进行某种检验(“sanity check”),如果不符合条件,则这个网络将不被加入(否则算法永远不会停止)。 这样的做法的最著名代表是Freund和Schapire提出的Boosting(在Boosting中, 如果某学习器的误差超过0.5,则它将不被加入),该工作最早是1990年发表 (在[PC93]之前),2003年获得著名的“哥德尔奖”。所有从事集成学习研究的 人都熟悉此类“序列化”方法(“序列化”方法和“并行化”方法是集成学习的两大 类方法,前者以Boosting为代表,后者以Bagging为代表),在集成学习研究的 语境下,这显然不是many could be better than all所覆盖的内容。 2) 我们的“选择性集成”的重要特质之一,就是从一个all-member ensemble (所有网络组成的集成)出发,从中进行选择,“many could be better than all”正是反映了这一点。我们所主张的是,从“all”中选择一部分,可以比用 “all”更好。与此不同的是,[PC93]这样的序列化的方法不是从“all”出发,并不 能确保在去除通不过sanity check的个体之后,能够比“all”更好。而且在序列 化方法中,任何个体在“按序加入”之后,就不会再被去除,这种“只进不出”的方 法,与选择性集成中任何个体都可能被去除截然不同。 3) 值得注意的是,[PC93]的上面这段话,是出现在Conclusion之前的一节 中,没有给出理论推导、没有提出任何算法、更没有对算法进行验证。实际上, 从[PC93]的论述来看,他们的目的是把所有网络进行集成,但是如果直接把所 有网络放到一起,在计算中会因为有的网络过于相似而出现病态问题,因此, 他们说“可能可以”尝试采用逐渐增加网络的做法来避免病态计算问题,他们 希望先把网络按精度排序,然后按精度从高到低加入集成中,遇到会产生病 态问题的网络,就和序列中下一个网络交换次序,下一轮考虑。这是明显的 “序列化”方法,和我们的选择性集成是两回事。    4) 退一步说,即使假设 [PC93]实现了他们的“猜想”,也和我们的“选择 性集成”完全不同。我们的“选择性集成”并非简单地根据精度来选择(我们的 分析已经表明,按照精度来选择是不好的),选择性集成往往会放弃个别精度 高的而选择精度低的网络;相似的网络也未必一定放弃,有时保留下来反倒有 好处。因此,无论在思路上还是在方法上,我们的工作和 [PC93] 都截然不同。 [四] 小同行(即从事相同领域研究的国际专家)的看法 1) [PC93]和我们的论文[1]都是“集成学习”(ensemble learning)领域的研 究成果。GoogleScholar显示,前者已被引用759次,后者已被引用810次。 有很多论文同时引用两个工作,并进行了较大篇幅的评述。这些引用文章的 作者都清楚地看出,两项工作的贡献是不同的。例如: a) Garcia-Pedrajas等人在《IEEE Transactions on Evolutionary Computation》2005年的文章(http://cib.uco.es/documents/Garcia05TEVC.pdf) 中,对[PC93]的评述是:“Several works have shown [Perrone&Cooper ,93] that the network ensemble has a generalization error generally smaller than that obtained with a single network …” (第1节,第1段);对我们的工作的评述是“Some recent works have shown [Zhou et al.02] [19] that the combination of a subset of all the trained networks can be better than the combination of all the networks”(第2页左边倒数第3段),以及“[Zhou et al.02] have shown that a combination of some of the networks may be better than a combination of all the networks,and that a genetic algorithm can be used for obtaining that subset of networks.” (第2页右边第2段) b) Rooney等人在《Intelligent Data Analysis》2006年的文章 (http://iospress.metapress.com/content/cny5uaf5n5l9cuvn/fulltext.pdf) 中对 [PC93]的评述是“The simplest ensemble method for regression is referred to as the Basic Ensemble Method (BEM) [Perrone&Cooper,93].BEM sets the weights αi to be equal to 1/N.This method does not take into account the individual performances of the base models ...The generalized ensemble method (GEM) and Linear Regression (LR) were developed to give more ‘optimal’ weights to each base model.However,both GEM and LR techniques may suffer from a numerical problem known as the multi collinear problem.”(第49页,第4-5段); 对我们工作的评述是:“It has been shown that given the presence of N models it is possible that an ensemble learner can perform better if it only uses a given subset of those models rather than all [Zhou et al.02]”(第50页,第4段) 2) 著名教科书 [C.Bishop,“Neural Networks for Pattern Recognition”, Oxford University Press,1995] (前面简称为 [NNPR,1995]),在第 9.6节介绍了 [PC-93] 的工作.我们文章中与 [PC-93] 所重叠的主要公 式大多可以在该节看到(具体请见前面第二部分的说明),但在该节中 完全找不到“many could be better than all”或者语义上相似的说法, 由此可以看出,国际同行专家并没有认为[PC93]提出了选择性集成的思 想。值得指出的是,由于[NNPR,1995] 是非常著名的教科书,国外很多 著名高校曾使用该书作为教材,有大量的读者(GoogleScholar引用超 过18,200次)。如果我们“剽窃”了[PC93]的工作,很难想象竟然能够 逃过审稿专家以及如此多读者、引用者的眼睛。 3) 集成学习领域的主要学术会议MCS (International Workshop on Multiple Classifier Systems;这是一个独立的会议,并非依附于其他conference的 workshop),周志华教授是MCS’2009(第8届MCS会议)的两位大会特 邀报告人之一;MCS’2010(第9届MCS会议)的Panel speaker之一,其 他四位Panel Speaker包括国际模式识别最高奖K.S.Fu奖得主Horst Bunke、 Robert Duin、Lucy Kuncheva、Terry Windeatt等集成学习领域的著 名学者。被指控所谓“剽窃”的工作是周志华教授在该领域最为人熟知 的工作之一,而“序列化”生成集成的方法([PC93]的方法是其中一种) 通常被列为集成学习的两大类方法之一,如果我们的工作剽窃了[PC93] 或者其他序列化生成集成的方法,那么难以想象的是,周志华教授竟 然被邀请为大会特邀报告人和Panel Speaker。另外,我们的“勘误”2010 年在权威期刊AIJ发表,周志华教授是在2012年底当选IEEE Fellow、 IAPR Fellow,获得2013年度IEEE计算智能学会杰出青年成就奖(全球 每年仅颁发给一位40岁以下的杰出青年学者),由此也可看出,国际 同行专家并没有认为我们的工作“剽窃”。 总而言之,这些同行专家与AIJ的勘误中表明的AIJ编委会的认识是一致的, 即:论文[1]的主要贡献是原创的,与[PC93]不同(当然也不存在“剽窃”的 关系)。 关于文章中对[PC93]文中出现的相似公式,从上面的澄清说明中可以看出, 出现重复的公式在集成学习领域都是常识性知识(例如重复的主要公式在 1995年出版的著名教科书[NNPR95]中都能看到)。事实上,[PC93]的主要 贡献,是提出了Weighted Averaging(加权平均)这个基本框架,即给每 个学习器赋予一个权重,然后进行加权结合。关于[PC93]工作的分析介绍, 以及我们的工作与它的区别,周志华教授2012年在Chapman & Hall出版的 英文专著《Ensemble Methods: Foundations and Algorithms》中有详细 的阐述,有兴趣的读者可以进一步参考书中的相关章节: 4.2.2节:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/emfa-sec4.2.2.pdf 6.2节(pp.121):http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/emfa-ch6.pdf 考虑到《Artificial Intelligence》所覆盖的领域远远不止集成学习,集 成学习领域外的读者对相关背景知识未必清楚,因此在前述公式的地方要 加以引用,以免对领域外人士造成误解,所以我们在AIJ发表了该勘误。 为免口舌之争,我们把一切可能误解的东西、甚至包括著名的拉格朗日乘 子法(式29-32)都归于[PC93]。 最后,再请各位读者对比一下两篇文章: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.32.3857&rep=rep1&type=pdf   http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.9955&rep=rep1&type=pdf   除了常识性背景知识,[PC93]只有文章末尾第12页有一个公式和我们的式17 形似(实质不同),文章主体的目的、理论分析、算法、实验都是两回事。 花时间阅读了这篇澄清说明的读者,对是否“剽窃”相信已经有了判断。 希望这篇澄清有助于维护新语丝的客观、公正性。 2013年1月9日 (XYS20130113) ◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇