两全其美网网友对自动化所徐波语音识别造假事件评论



所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: IronBull 于 2006-1-16, 08:49:23:


http://www.lqqm.net/Lqqm.NetA*aAAACRAONERJNKPSKJFVALXONPJGGHSGBQJ_A/?t=1137025375

发信人: 天王之王 (相忘于江湖), 信区: HitTopic
标 题: [hj]从央视的语音识别成果报道看国内学术风气
发信站: 两全其美网 (Tue Jan 10 13:31:38 2006), 本站(lqqm.net)

───────────────────────────────────────
作者 firingfiring 时间 Mon Jan 9 11:48:53 2006
───────────────────────────────────────
◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇

  从央视的语音识别成果报道看国内学术风气

  lxd

  最近的韩国黄锡禹事件引起了国内媒体的相继报道和众多的评论,如以此为
鉴,深刻比照与反思云云等。其实,中国科学界除了为数不多的科学家支持打假
并参与,总体上是不愿直面学术腐败的(中国工程院副院长沈国舫就曾义正词严
地表示,“他可以勇敢地说,目前社会上存在的学术浮躁和学术不良作风,不会
影响中国工程院。”)。这也凸显新语丝网站学术打假的难度和意义所在。另一
方面,对中国学术腐败的揭露,少有公共媒体的支持,相反,在新闻媒体中充斥
着对不实科研成果的宣传。试举一例:

  中央电视台《新闻30分》栏目在去年12月14日报道了一则新闻“让机器听懂
人的话”,介绍了中国科学院自动化研究所在“信息领域最前沿的技术——语音
识别技术”领域取得的科研成果(文字版参见
http://www.cctv.com/news/science/20051214/100949.shtml,新闻视频可通过
链接mms://movie.shm.com.cn/movie/ytnews/ytnews-284.wmv观看)。在该报道
中,自动化所国家863计划计算机软硬件主题专家组成员徐波研究员宣称,该单
位研究的新闻节目类的实时自动听写系统识别精度达到了95%。

  果真如此,真要为国内语音界在语音识别技术方面取得的重大突破而骄傲。
然而,事实如何呢?普通观众可能相信专家的话,对于准确率95%这一数字不太
敏感。徐波研究员的这种要让“让机器听懂人的话”的宣传,其真实性是有待商
榷的。

  国际上的语音识别技术在近20年有了很大的发展,可至今其识别率还不高,
这正是影响语音识别技术的大规模应用的主要原因。自动化所在中央电视台等媒
体上宣称的95%汉字正确率,意味着每二十个字里面只有一个汉字是错的,这种
技术水平已经大大超越了国际最好水平。即使是人去记录新闻节目,也会出现一
些错字(如中文人名和地名由于多音字的存在,是很难仅凭发音就把字写对的),
何况还很有可能遇到一些不熟悉的主题和术语。美国技术标准局连续多年对广播
电视新闻的语音文字自动转换技术做了大量的评估工作,参评单位包括剑桥、
IBM和BBN等知名大学、公司的相关研究小组(参见http://nist.gov/speech/)。
在2004年的评测中,最好的10倍实时(识别时间是节目时间的10倍)系统错误率
为11.6%。一般来说,语音识别技术的进步是按相对错误率下降来描述的,如从
10%的错误率到5%的错误率,相对错误率就下降了50%。根据美国技术标准局过去
十几年的评测结果估计,再考虑中英文识别难度的相似性, 这些国际知名研究单
位要达到自动化所目前所提到的水平需要3年左右的时间。换句话说,自动化所
自己宣传的结果比国际最好水平至少领先3年,这与该领域的实际情况恐怕是正
好相反了。

  中央电视台作为国内影响广泛的大众媒体,它的不实宣传会误导科研主管和
社会大众;而由此宣传可能带给相关单位和个人的荣誉将会造成国内学术风气的
进一步恶化。在国内媒体纷纷扬扬的报道韩国克隆造假的同时,国内学术界和新
闻界的同仁是否也应该反思一下,不再漠视发生在自己身边的问题。就像新语丝
新到资料上陶世龙先生说的:“我们不应象手电筒一样,只照见别人而看不到自
已。”才能够如邹承鲁院士指出的“敢扬家丑才能避免家丑”。

(XYS20060107)

◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇

※ 修改:.firingfiring 于 Jan 9 11:50:36 修改本文.[FROM: 202.153.116.56]───────────────────────────────────────
作者 firingfiring 时间 Mon Jan 9 11:58:11 2006
───────────────────────────────────────

徐波研究员作的有点儿过了吧?

【 在 firingfiring 的大作中提到: 】
: ◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇
:
:   从央视的语音识别成果报道看国内学术风气
:


───────────────────────────────────────
作者 yeyeyeye 时间 Mon Jan 9 12:04:57 2006
───────────────────────────────────────
现在什么都有啊,学术腐败,学术造假,见惯不惯了。
但是,造假到中央电视台吹牛皮,是太过了.

───────────────────────────────────────
作者 yeyeyeye 时间 Mon Jan 9 12:26:30 2006
───────────────────────────────────────
看了一下央视的新闻,徐波原来这个衰仔!太弱!

───────────────────────────────────────
作者 kenky 时间 Mon Jan 9 12:42:35 2006
───────────────────────────────────────
给科学院抹黑呀~~~~~~~~~~~~~~~~~~~~
───────────────────────────────────────
作者 blackair 时间 Mon Jan 9 12:43:56 2006
───────────────────────────────────────
坚持科学发展观,建设学术界的和谐社会
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 12:50:39 2006
───────────────────────────────────────
95%完全可能哈
休谟大师教育我们: “猿,是从人进化来的”
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 12:55:35 2006
───────────────────────────────────────
对了,前两年科博会上看到一个中科院自动华所的语音问路系统
我喊了几个地名都识不出来,不知道是不是这个实验室做的
但是那个系统正确率有59%就不错了
【在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 13:03:34 2006
───────────────────────────────────────
下去真是不得了啊
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 13:04:03 2006
───────────────────────────────────────
所以还得拿产品说话

【 在 wongwere 的大作中提到: 】


───────────────────────────────────────
作者 highjiji 时间 Mon Jan 9 13:09:03 2006
───────────────────────────────────────
说不定真达到95%了, 别灭咱中国人威风,长别人志气。
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 firstyl 时间 Mon Jan 9 13:13:49 2006
───────────────────────────────────────
Faint!!
中国的法律还差那么一条:对于学术骗子,应该无条件枪毙!!
一点都不为过!!

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 乌市abc 时间 Mon Jan 9 13:14:18 2006
───────────────────────────────────────
学术腐败!

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 highjiji 时间 Mon Jan 9 13:14:33 2006
───────────────────────────────────────
新京报评论:黄禹锡事件给中国的启示

--------------------------------------------------------------------------------

http://www.cymedia.com.cn 2006-01-09 09:33:38 新京报
韩国首尔大学调查委员会近日宣布,经过为期一周的调查,证实黄禹锡科研组发表在美国《科学》杂志上的论文系“有意造假”。黄禹锡当即承认在编造科学数据过程中扮演了某种角色,宣布辞去首尔大学教授的职务,并向国民道歉(见12月24日《新京报》)。   现年53岁的黄禹锡被称为韩国“克隆之父”,在此次造假事件披露之前,他被认为是韩国的明星科学家和民族英雄。从“民族英雄”一夜之间沦为“科学骗子”,这种大起大落 不仅对于黄禹锡本人是一次沉重的打击,而且让整个韩国科学界为之蒙羞,更让人类的克隆科学研究遭受了重创。这起科学造假事件既让人震惊,又难免让人为之扼腕。
  黄禹锡故意捏造科学数据,显然不是为了发论文、评职称,甚至不是为了出人头地、名满天下。因为,鉴于他之前在克隆研究方面取得的成就,他已经拥有了韩国“克隆之父”、“民族英雄”等头衔。遗憾的是,深入剖析这起科学造假事件就会发现,恰恰是这些耀眼的“头衔”,在很大程度上成了促使黄禹锡造假的因素,而这,正是“黄禹锡事件”给予我们的最重要的警示。
  “克隆之父”、“民族英雄”,这样崇高的荣誉,如此巨大的光环,对于一名科学家来讲也许意味着前进的动力,但更多的则意味着巨大的压力。被公众推向“神坛”、被万众顶礼膜拜着的黄禹锡已经别无选择,只能以更突出的成就、更惊人的成果来证明自己无愧于这些荣誉,来回报韩国公众对他的热切期待。而且,这种回报是“只争朝夕”的,崇高的荣誉和耀眼的光环使得黄禹锡不能“板凳坐得十年冷”,不能几年、十几年默默无闻。他被荣誉推着、赶着往前跑,他被光环照得心慌意乱,“克隆之父”、“民族英雄”的崇高荣誉,成了一名科学家不能承受之重。于是,一名曾经那么优秀的科学家,一名本应该脚踏实进行克隆研究、并有实力在若干年后拿出惊人成果的科学家,为了早出、快出成果而不惜造假。
  而韩国公众之所以给予黄禹锡如此崇高的荣誉,正如韩国某大学一名社会学教授所言,这是一些存在于韩国社会文化中的“急功近利”思维使然。近几十年来,韩国的经济和社会取得了超常规的快速发展,受此影响,“高速文化”成为了韩国社会文化的特征之一,于是不少韩国人总是急于以自己的非凡成就,来赢得国际社会的认可和尊重。在这种社会文化和公众心态之下,不论是韩国人将黄禹锡尊奉为“克隆之父”、“民族英雄”,还是黄禹锡急于拿出成果来为韩国赢得荣誉和尊重,都不足为奇。从一定意义上说,“急功近利”的社会文化才是产生“黄禹锡事件”的深层土壤。
  韩国的“土壤”如此,而我们中国的“土壤”与其颇有相似之处。我们同样习惯于将那些取得成就并赢得了国际声誉的科学家视为民族英雄,将他们请上“神坛”,在他们头上戴上各种各样耀眼的光环;在有些时候,我们同样片面看重外国人对我们的评价,把民族自尊心无限放大,动辄就将一些成绩提升到“国家尊严”、“民族自豪”的高度;中国经历了十多年的快速发展,我们的社会文化中同样弥漫着强烈的“急功近利”的气息……在这样的“土壤”之上,我们同样结出过一些科学论文造假的“恶果”,只不过没有“黄禹锡事件”这样令世界瞩目罢了。
  因此,对于发生在近邻韩国的这起科学造假事件,我们显然不能只是听之观之,而应以此为鉴,进行深刻的比照。
  □晏扬(上海教师)

───────────────────────────────────────
作者 乌市abc 时间 Mon Jan 9 13:16:10 2006
───────────────────────────────────────

学术腐败,造假专家!

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 highjiji 时间 Mon Jan 9 13:17:09 2006
───────────────────────────────────────
韩国黄锡禹事件值得我们深思啊

───────────────────────────────────────
作者 diwang 时间 Mon Jan 9 13:21:15 2006
───────────────────────────────────────

第一次开卷测试就这样放卫星,悲哀

【 在 firingfiring (firingfiring) 的大作中提到: 】

───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 13:24:42 2006
───────────────────────────────────────
要是真到95%了
自动化所就应该立即接受验证,然后高高兴兴去喝酒、放炮、打麻将

要是真到95%了
那么多搞语音的人也就不用愁着转行了
【 在 highjiji 的大作中提到: 】


───────────────────────────────────────
作者 highjiji 时间 Mon Jan 9 13:29:23 2006
───────────────────────────────────────
纽约时报对黄禹锡事件的另一种解读

--------------------------------------------------------------------------------

http://www.cymedia.com.cn/society/people/ 2006-01-09 09:34:20 新京报
现在是2005年12月25日10时23分,我在看当天的《纽约时报》,头版有一篇文章,写的是韩国“民族英雄”兼“首席科学家”黄禹锡教授忽悠的故事。“民族英雄”兼“首席科学家”,在东亚的语境中,可以说是无上的荣耀了。然而就是这位“首席科学家”,曾经被认为是世界上第一位利用克隆技术获得人类胚胎干细胞的科学家,被查出论文造假,一夜之间,从“民族英雄”跌下神坛,可谓是莫大的遗憾。
  然而这不是我特别感兴趣的地方,我感到有趣的是《纽约时报》对此事件的分析。按照传统的思路:有人造假,那一定是此人道德品质恶劣;有人学术造假,那一定把此人批倒批臭。
  这篇文章没有这样,而更多的是从细节和制度方面思考。它要问的问题是,为什么黄教授能够在科学界迅速蹿红,并且成功地让许多顶尖(美国)科学家接受他的科学成果?
  最后总结出来了如下三点:第一,韩国政府对黄禹锡的支持,让黄禹锡在韩国处于要风得风、要雨得雨的学霸地位。文章特别提到,黄禹锡把朴基荣女士列为论文的共同作者,虽然很多人认为朴女士对论文并没有直接贡献。那么,这位朴女士是谁?她是总统的科技顾问。如果深谙“关系学”,这其实已经不用更多解释了。
  第二,黄禹锡把他的科研小组部门化,结果是,每一个小组都不清楚其他小组具体在做些什么,至于外人,当然就更不知道了。就这样,黄禹锡不仅瞒过了韩国同僚,而且瞒过了许多到访的外国专家。
  第三,黄禹锡不仅邀请了韩国总统的科技顾问作为论文的共同作者,还邀请了其他许多外国专家,包括美国学者,作为论文的共同作者,甚至作为主要作者(黄禹锡有许多论文),希望以此来增加论文的说服力。《科学》杂志编辑肯尼迪博士说,把美国学者作为共同作者,并不影响他们对论文的判断;后面又说,美国对论文的审核和发表,主要是基于对作者善意的信任,美国作者的加入显然还是增加了他们的“信任感”———这与前面的话有些自相矛盾。
  总而言之,有很多人被黄禹锡瞒天过海的手法忽悠了,因此很生气,认为很值得好好反思一下自己的问题了。
  然而,他们对黄禹锡没有太多的、空洞的道德谴责。肯尼迪博士承认,很多顶尖美国大学有至少一起学术腐败事件。换句话说,美国人自己也不是天生就是什么真君子,为此,他们反思的更多是体制上的问题。
  在我看来,美国文化从本质上来说,应该是信奉“性恶论”。也就是说,人从本质上是“恶”的,是带有原罪的,是自私的,是贪婪的,是见利忘义的,有机会作假就会作假,有机会腐败就会腐败。因此,他们不信任一个人单单会从道德高度保持清廉,做一个“好人”;而是从制度上着手,建立督促和制衡机制来控制腐败。
  从另一角度来看,对黄禹锡事件的三点反思,其实也是反腐箴言:文章第一点分析的是,黄禹锡在韩国科学界的高高在上、不受制约的地位,“绝对权力导致绝对腐败”;第二点就是说,“暗箱操作”导致瞒天过海(当然,瞒得过一时,瞒不过永远);而第三点则是讨论(韩国学者、美国学者)“共同腐败”,以及“不唯书、不唯上”不要轻易信任的道理。
  其实,这对任何地方反对学术腐败,都是适用的。

───────────────────────────────────────
作者 blackair 时间 Mon Jan 9 13:30:24 2006
───────────────────────────────────────
形势大好,人心大坏
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 13:31:55 2006
───────────────────────────────────────
这绝对不是一种偶然现象
至少对中国得学术届是一种冲击
【 在 highjiji 的大作中提到: 】


───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 13:33:06 2006
───────────────────────────────────────
就是,看过《绝密飞行》的人都知道,语音识别到100%已经不是难事了
【 在 highjiji 的大作中提到: 】

───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 13:33:17 2006
───────────────────────────────────────
我想说,应该对此进行反思
别说95%得识别率,就100%得识别率都可以达到
这简直就不是一种做学问得态度
【 在 freesoup 的大作中提到: 】


───────────────────────────────────────
作者 firstyl 时间 Mon Jan 9 13:35:58 2006
───────────────────────────────────────
学术腐败比政治腐败可怕!!
自动化所也是一泱泱大所,竟有此害群之马,真是自动化所之悲哀,中科院之悲哀,也是我们国家学术界的悲哀!


【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 highjiji 时间 Mon Jan 9 13:36:56 2006
───────────────────────────────────────
现在国家反腐倡廉,免掉农业税,还是看到一些希望。学术界同样需要净化净化空气。
今天,胡锦涛在全国科学技术大会发表讲话,
国家的科技还是很受重视的。
但是,这种害犬之马让国家投的钱白白浪费!
可悲可叹!


【 在 freesoup 的大作中提到: 】


───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 13:38:03 2006
───────────────────────────────────────
rt 中国新一代搞学术的就是太缺乏骨气了
为了一点小利,连学者的荣誉都不要了

【 在 freesoup 的大作中提到: 】


───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 13:39:19 2006
───────────────────────────────────────

【 在 highjiji 的大作中提到: 】
你说这么造假,这也太恶劣了吧。

--------------------------------------------------------------------------------

───────────────────────────────────────
作者 superdapeng 时间 Mon Jan 9 13:39:21 2006
───────────────────────────────────────
上梁不正下梁歪啊
作为一个博士生导师,如果自身得学术道德败坏得话,很难想象他所带的博士和硕士们会
受到什么好得影响?
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 13:39:30 2006
───────────────────────────────────────
这个...
太意识流了吧
【 在 firstyl 的大作中提到: 】


───────────────────────────────────────
作者 blackair 时间 Mon Jan 9 13:42:19 2006
───────────────────────────────────────
学术界的人以学术之名行拜金之实早就成了普遍现象了
可叹,可.........
【 在 eroica 的大作中提到: 】


───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 13:42:59 2006
───────────────────────────────────────
拿钱做事,还是老美做事比较有专业精神
【 在 highjiji 的大作中提到: 】


───────────────────────────────────────
作者 firez 时间 Mon Jan 9 13:43:59 2006
───────────────────────────────────────
皑皑,还有一个星期就考研喽

有考自动化所,especially徐波研究员的筒子

赶紧华丽滴漂过吧,就当没看见,

嗯。

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 Loooop 时间 Mon Jan 9 13:45:59 2006
───────────────────────────────────────
不可能吧,要真到那么高了,肯定早就普及应用了,现在咋哪都没见用哪
【 在 freesoup 的大作中提到: 】


───────────────────────────────────────
作者 firez 时间 Mon Jan 9 13:46:50 2006
───────────────────────────────────────
楼上滴表太上纲上线了,呵呵
混口饭吃嘛

江湖人混迹的,哪个不会点水上漂,大变活人什么的……

【 在 firstyl 的大作中提到: 】


───────────────────────────────────────
作者 yourcat 时间 Mon Jan 9 13:49:26 2006
───────────────────────────────────────
开眼了
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 blackair 时间 Mon Jan 9 13:50:58 2006
───────────────────────────────────────
嗬嗬,混饭吃这句话很实在,大家都是混饭吃,但是不能吃独食
吃独食肯定被群殴
【 在 firez 的大作中提到: 】


───────────────────────────────────────
作者 YuanH 时间 Mon Jan 9 13:52:25 2006
───────────────────────────────────────
恶劣的性质啊!
这个帖子要顶!!!
再顶!!!
大家一齐顶!!!
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 yourcat 时间 Mon Jan 9 13:54:01 2006
───────────────────────────────────────
要想吃独食,首先要放卫星,这是放之四海的道理,黄锡禹就是一个典型的例子。自动化所的徐波看来就是黄锡禹第二了。
【 在 blackair 的大作中提到: 】

───────────────────────────────────────
作者 yourcat 时间 Mon Jan 9 14:01:21 2006
───────────────────────────────────────
虽然是放卫星,但现实生活就是这样,我们又能有什么办法呢
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 kkykky 时间 Mon Jan 9 14:04:02 2006
───────────────────────────────────────
严惩学术腐败,打击学术骗子!!

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 kkykky 时间 Mon Jan 9 14:05:41 2006
───────────────────────────────────────

顶翻造假者,净化学术风气!!!!!

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 14:07:43 2006
───────────────────────────────────────
我就是自动化所的学生,你们这么造谣,有什么证据吗?
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 bambooflower 时间 Mon Jan 9 14:10:58 2006
───────────────────────────────────────
隔行如隔山啊,众说纷纭,不知道是真是假。
查了一下徐波的简历,现在不到40岁,混到这个份上也很不容易。
徐波:
姓名: 徐波
性别: 男
职称: 研究员


个人简介:

生于1966年7月,浙江鄞县人。研究员,博士生导师。1988年毕业于浙江大学电机工程系并获学士学位,此后在中科院自动化所从事语音语言信息处理方面的学习和研究,并分别于1992年和1997年获工学硕士、博士学位。现任研究所所长助理、党委委员、模式识别国家重点实验室副主任和高技术创新中心主任。同时兼任国家“863”计划计算机软硬件主题专家组成员,“国际中文口语信息处理学会”(SIG-ICSLP)主席、中国中文信息处理学会常务理事、中国声学学会和中国自动化学会理事、《自动化学报》编委等职。正在培养的硕士博士研究生30多名,年发表论文三十余篇。

目前研究兴趣包括:网络内容管理和内容安全,多语言信息信息处理、跨媒体信息检索以及机器翻译研究和应用等。 经过多年的努力,其领导的方向研究队伍不断扩大,研究内容不断深入,研究范围不断拓广,已经成为国内外该领域研究的最主要的研究集体之一。


研究方向: 语音语言信息处理,网络内容管理
教育情况: 1988年6月毕业于浙江大学电机工程系并获学士学位
1992年4月获中国科学院自动化所硕士学位
1997年7月获中国科学院自动化所博士学位
当前工作: 目前负责承担的课题包括:国家重大基础研究计划“973”“音频场景分析理论与方法”,国家“863”高技术研究发展计划“高效鲁棒分布式语音识别引擎”,国家自然科学基金重点项目“基于短语块的统计翻译方法研究”以及若干涉及网络内容管理以及应用的国内外横向合作项目,包括与国际著名企业和研究机构Panasonic, Nokia,日本ATR等的合作。
个人成就: 先后作为技术骨干和项目负责人参加过多项国家、横向和和国际合作项目,其论文和成果曾获中科院自然科学进步二等奖,香港“盈科数码动力”杰出人才奖、中国科学院院长奖和全国语音通讯优秀论文一等奖、中国科学院十大双文明标兵等。近几年主要成果如下:
1)完成了多引擎的口语语音翻译方法和系统。国际口语翻译先进研究联盟(C-STAR)通过对所在研究组在语音技术力量、研究水平、软硬件设施、经费状况、国际合作交流等方面的全方位考察,于2000年10月全票同意中国科学院自动化研究所正式成为该组织的第七个核心成员,并正式签定了协议。中文这个全世界最为广泛使用的语言终于被纳入了国际语音互译的大家庭。
2)完成了中日双向翻译掌上机产品原型。中国科学院自动化研究所、松下技研(株)及松下电器产业(株)分别在东京和北京宣布共同开发成功了世界最新中日双向旅游对话语音翻译技术。中日双向语音翻译技术的开发成功,首次使得汉语与日语之间的直接语音通信变为可能。它可作为旅游用语音翻译助理及简易的语言学习助理,能应用于移动终端和新一代移动电话上等。书本大小的手持式翻译机的问世, 表明在语音翻译方面取得的实质性进展。
3)完成了高性能的汉语广播语音识别核心引擎。中国科学院自动化研究所参加了 “973”和“863”项目组组织的汉语自动分词、词性标注以及语音识别技术评测。评测结果表明,自动化所在语音识别领域保持着很大的优势,在自动分词、词性标注方面也达到了与国内优势单位完全同等的水平。
4)在语音识别技术成果转化方面,完成了多套面向不同应用层面的语音识别开发工具包(API),先后利用这些软件工具包及技术与国内外著名企业合作,完成多个应用项目、产品开发,涉及经费达1000万。
5) 共发表语音语言方面的学术论文120多篇,其中国际会议特邀报告2个,国内会议特邀报告4个;在进行实质性的国际项目合作同时,主办和举办国际会议和研讨会4个,来往交流人次20余次,其中一篇论文在中文口语信息处理国际会议上获优秀论文一等奖。针对汉语语音特征的新框架,获得国家发明专利6项
.... ....


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 14:15:07 2006
───────────────────────────────────────
我们都是中国人,为什么中国的东西就一定不如小米的,95%为什么不可能达到,从前面的讨论来看,你们没一个人能说上来。
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 幽灵 时间 Mon Jan 9 14:19:20 2006
───────────────────────────────────────
自动化所的研究在国内确实占据领先地位
我们不应当只看媒体宣传的效果而应该看到问题的实质
语音识别和图像检索在国际上都是公认的难题
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 hitter 时间 Mon Jan 9 14:20:31 2006
───────────────────────────────────────
这么吹牛整个行业就完了。

【 在 wongwere 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 14:24:14 2006
───────────────────────────────────────
就是,这帮人就知道在这胡说,连我的帖子都不敢回
【 在 幽灵 的大作中提到: 】

───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 14:25:25 2006
───────────────────────────────────────
没跟你说吗,做到100%都是可以得
开卷考试嘛,答案只要到网上google 一把,不就有了么?
不懂就闭嘴
【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 blackair 时间 Mon Jan 9 14:27:00 2006
───────────────────────────────────────
浙江鄞县,人才辈出阿
出过很多科技牛人
【 在 bambooflower 的大作中提到: 】

───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 14:29:46 2006
───────────────────────────────────────
如果“领先”都是靠这种95%的评测得来的,那也没什么意义了
还有,在中国“处于xxx领先”是最不值钱的话了
【 在 幽灵 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 14:30:13 2006
───────────────────────────────────────
这是BBS,每个人都有说话的权利。我不明白你指的开卷考试是什么意思,GOOGEL和语音识别又有什么关系。
【 在 freesoup 的大作中提到: 】

───────────────────────────────────────
作者 rtrt 时间 Mon Jan 9 14:30:48 2006
───────────────────────────────────────
说的好啊!
想当年亩产过万斤时,小米就不如俺们中国人了。

【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 diwang 时间 Mon Jan 9 14:31:05 2006
───────────────────────────────────────

laf,想起了九运会上的田径项目,那么多人狂破世界纪录,一拉出国去比
个个都萎了

04年还落后国际水平不少。到05年开卷测试,忽然一下就领先世界先进水
平三四年,后来又不肯重新公开测试,还能让别人怎么说啊

【 在 doggeg (doggeg) 的大作中提到: 】

───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 14:32:34 2006
───────────────────────────────────────
发信人: eroica (xwu), 信区: HitTopic
标 题: Re: 从央视的语音识别成果报道看国内学术风气
发信站: 两全其美网 (Mon Jan 9 12:55:35 2006), 本站(lqqm.net)

对了,前两年科博会上看到一个中科院自动华所的语音问路系统
我喊了几个地名都识不出来,不知道是不是这个实验室做的
但是那个系统正确率有59%就不错了
【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 freesoup 时间 Mon Jan 9 14:38:50 2006
───────────────────────────────────────
开卷考试就是把 测试数据 给各个参加评测得单位
当然,语音识别就是,识别这些测试语音得正确识别率,坦白得说就是,给出对应得识别文本,告诉我们这些测试得语音数据到底说了什么。
明白否?
既然给了考题,答案就很容易搞定了吧。
你如果再不懂,可以去问问,你们那个徐波老师。

【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 14:40:22 2006
───────────────────────────────────────
你说的这些都有证据吗?现在网上假消息,小道消息漫天飞,谁知道你说的真的假的啊,有凭据就贴出来啊
【 在 diwang 的大作中提到: 】

───────────────────────────────────────
作者 darkevil 时间 Mon Jan 9 14:43:01 2006
───────────────────────────────────────
1.汉语对英语,差别很大
2.新闻播报的发音质量和随机抽取的声音差别很大
3.如果是新闻联播的话,分辨率肯定更高,-_-
4.国外不行不代表国内就一定不行,质疑的话去找相关数据出来,旁敲侧击总是不好
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 nCube 时间 Mon Jan 9 14:46:33 2006
───────────────────────────────────────
所以得说清楚在什么条件下95%
不要在国内乱吹
有本事到国外去吹才是正道
【 在 darkevil (superstar) 的大作中提到: 】

───────────────────────────────────────
作者 rtrt 时间 Mon Jan 9 14:51:43 2006
───────────────────────────────────────
05年的测试形式是,参评单位把数据拿回去自己识别,3天后提交识别结果。
可惜的是863评测组并没有要求参评单位提交系统。

自动化所到底在3天中做了什么,不好瞎猜。
但是结果公布后,在大部分参评单位有疑义要求重新评测或验证时,
他们坚决不同意验证。。。
why?????????


【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 eroica 时间 Mon Jan 9 14:53:09 2006
───────────────────────────────────────
搞笑
应该谁来举证都搞不清楚,还在这瞎说胡闹
听说过“谁主张,谁举证”么?

当然应该亩产万斤的人站出来重复实验
而不是我们这些人在举证

吹了大牛死不认错,还缩在洞里不敢出来,反而指责我们这些不吹牛的人。。。

【 在 doggeg 的大作中提到: 】


───────────────────────────────────────
作者 kkykky 时间 Mon Jan 9 14:54:22 2006
───────────────────────────────────────

2005年国家863组织的语音识别评测研讨会上再传学术造假丑闻。

参加本次测评的中科院自动化所,以超过95%的正确率领先其他单位,并远高于国际最高水平和理论值。


高得离谱的正确率立刻遭到了大多数参评单位的质疑,并一致要求此单位重新测试和进行验证。因为过高的正确率在理论上都是不可能的,学术造假骤然出现。

但是该单位拒绝进行重新的测评和验证,并在研讨会上,面对国内外众多专家的质疑,强词夺理,甚至以蛮横的态度指责在场专家不懂此项技术。


───────────────────────────────────────
作者 nCube 时间 Mon Jan 9 14:55:03 2006
───────────────────────────────────────
最后一段比较讃
laf

【 在 kkykky (kkykky) 的大作中提到: 】

───────────────────────────────────────
作者 yeyeyeye 时间 Mon Jan 9 14:59:32 2006
───────────────────────────────────────
汉语和英语是有很大差别。但是从语音识别的角度上来说,都是模式识别的范畴,他们的难度应该不至于相差很多。英语有oov问题,但是汉语同样有多音的问题。如果说汉语比较容易做,这说明汉语非常具有自动识别优势,但是,事实上情况并非如此。台湾一些研究机构还有国外的机构,微软亚洲研究院,IBM他们也不仅仅做英语同样也作汉语的语音识别。国外的研究机构的研究现状还是很有参考意义的。


───────────────────────────────────────
作者 benying 时间 Mon Jan 9 15:00:24 2006
───────────────────────────────────────
也许没那么高,但是这是上面的需要,和科研者本身没有关系,
徐波老师还是做了不少工作的,不知道的不要在那里乱叫,能做出东西已经很不错了,

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 15:00:57 2006
───────────────────────────────────────
既然是“谁主张,谁举证”,那就应该是你们拿出证据来证明自动化所做假,我现在看到的只是你们的一面之词,真正评测研讨会发生了什么,我们都不知道,你们总要给个链接,或者列出这个会在什么时候开的,有谁参加,在哪开的吧。有没有自动化所或者其它参加过这个研讨会的人出来澄清一下。
【 在 eroica 的大作中提到: 】

───────────────────────────────────────
作者 nCube 时间 Mon Jan 9 15:08:52 2006
───────────────────────────────────────
如果自动化是私营公司
怎么吹都没人管
既然拿的纳税人的钱
还要纳税人来举证?
在国内搞科研真爽y了

【 在 doggeg (doggeg) 的大作中提到: 】

───────────────────────────────────────
作者 diwang 时间 Mon Jan 9 15:09:27 2006
───────────────────────────────────────

研讨会上自动化所不肯重测,所以其它的就没法说了

【 在 doggeg (doggeg) 的大作中提到: 】

───────────────────────────────────────
作者 MeM 时间 Mon Jan 9 15:09:30 2006
───────────────────────────────────────
现在什么都是形式主义了……

【 在 firingfiring (firingfiring) 的大作中提到: 】
───────────────────────────────────────
作者 rtrt 时间 Mon Jan 9 15:09:54 2006
───────────────────────────────────────
我土,听不懂。什么叫“上面的需要”?

徐波老师按照上面的需要做出了95%,全国人民应该欢欣鼓舞,向他学习,是吗?

既然你知道,请说说看。

【 在 benying 的大作中提到: 】


───────────────────────────────────────
作者 doggeg 时间 Mon Jan 9 15:27:50 2006
───────────────────────────────────────
“2005年度863计划中文信息处理与智能人机接口技术评测研讨会”圆满完成

来源:网络文摘 等级:默认等级
发布于2005-12-26 22:25 被读7次 【字体:大 中 小】〖 访问论坛 〗

http://jj86.com/read.php?wid=10370

据国家科技部网2005年12月23日报道:2005年度863计划中文信息处理与智能人机接口技术评测工作以“2005年度863计划中文信息处理与智能人机接口技术评测研讨会”顺利召开而告圆满结束。
2005年的评测是第一次与国际接轨实现网上评测,即吸引了国外系统参加评测活动,也降低了国内参测系统的成本,本次共有二个国外系统参加评测。
本次评测工作突出重点,加强评测的深度研究,起到一个引领技术的作用。今年的评测工作只选择了中文信息处理的三个方向进行评测,语音识别、机器翻译和信息检索这三个方面的技术发展迅速,很多单位取得了很好的技术进展,通过评测可以及时准确地把握技术走向,为“十一五”规划的制定提供准确详实的数据。来自国内外的26个单位参加了本年度评测,语音识别有17个参评系统,机器翻译有23个参评系统,信息检索有5个参评系统。通过评测和技术研讨,使我们和国际上的一些研究机构建立了合作关系,为进一步加强国际化奠定了基础。
2005年11月28日- 29日由国家863计划计算机软硬件技术主题专家组主办、由中国科学院计算技术研究所承办的“2005年度863计划中文信息处理与智能人机接口技术评测研讨会”在北京召开,来自国内外近40个单位的100多位研究人员参加了此次研讨会。
专家组组长怀进鹏教授代表专家组首先发表了热情洋溢的开幕词,他简要回顾了863评测的历史,充分肯定了评测工作对中文信息处理技术的发展和产业化的积极作用。指出863技术评测是以技术为基础的评测,其主要目的有三点:一是通过评测了解国内外中文信息处理和人机接口技术现状。二是进行863课题的检测和评估,以测代评。三是更好地进行技术交流和经验共享,建立合作和竞争的环境。同时指出863计划中文与接口的评测,始终坚持其规范性,公正性,科学性,引导性,得到了各方面的充分肯定。最后,简要介绍了科技部“十一五”期间的规划和布局。
大会还特别邀请了意大利ITC-IRST的Gianni Lazzari教授和复旦大学黄萱菁教授对国际评测与参与国际评测的情况进行介绍及分析。Gianni Lazzari教授介绍了欧洲TC-STAR评测的项目设置和语料准备以及评测结果情况,黄萱菁教授详细的介绍了美国TREC评测工作,以及复旦大学参加TREC评测的一些情况。
从整体来看,2005年度的863评测引起国内外学术研究机构的广泛关注,参与单位不断增加,其工作得到了本领域普遍的认同,开始在国际上产生了一定的影响。评测组织单位计算所表示,在以后的评测中,将本着科学化和国际化的宗旨,设置更多的与国家重大应用相关的评测项目,并继续扩大国际合作,争取与国际学术组织共同举办评测,以吸引更多海外研究机构参加评测,争取创出品牌,成为具有国际影响力的评测,同时为我国国民经济的建设服务。

───────────────────────────────────────
作者 vcdmmx 时间 Mon Jan 9 15:56:09 2006
───────────────────────────────────────

是不是应该搞清楚是单个字的识别率还是整个句子的识别率??
然后再骂!


【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 pico 时间 Mon Jan 9 16:06:55 2006
───────────────────────────────────────
ft 单个字能识别么? (造假与否偶持保留态度,知道的太少)

【 在 vcdmmx 的大作中提到: 】

───────────────────────────────────────
作者 MorEA 时间 Mon Jan 9 16:22:19 2006
───────────────────────────────────────
哈哈,有好戏了
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 奇迹的舞蹈 时间 Mon Jan 9 17:15:54 2006
───────────────────────────────────────
央视在我眼里早已经是垃圾的代名词
一个满嘴谎言的媒体竟然还要成为世界影响
简直荒唐
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 brothernine 时间 Mon Jan 9 17:34:46 2006
───────────────────────────────────────
在中央台的,》50%是大白痴。

给国人丢脸。
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 davidwuwu 时间 Mon Jan 9 18:25:36 2006
───────────────────────────────────────
中央台里的都是白痴,有一次看新闻,将RFID翻译为收音机频率识别,我以为是什么新技术呢!一看画面是RFID,才恍然大悟.(从不看中央台的国内新闻,没想到国外的新闻也能播成这样,太厉害了)
【 在 yeyeyeye 的大作中提到: 】

───────────────────────────────────────
作者 chengboo 时间 Mon Jan 9 19:20:36 2006
───────────────────────────────────────

因为自己曾经研究过语音识别,虽然没有什么成效,但是兴趣和初步知识还是有一点的。中文是单音节字,就是每个字在波形上看只有一个波峰,声音的能量在一个比较集中的时间发送出来,其实大家可以用windows的录音机录几个字仔细观察那个上面的波形图象就看得出来。而不是像英文,有几个波峰,然后还要中间联读什么的,不比英文等等欧美语系,中文的识别率的确会很高,比英文好识别多了。所以达到95%是完全可能的,我以前的女朋友读报采用IBM的ViaVoice在99年左右就可以达到90%以上的识别率。当时采用的计算机是一台PII 233的机器。现在已经有6年了,应该可以比较高的识别率了。并且当时发现如果普通话不标准识别率会急剧下降。比如我的读报时候识别率就只有60-70左右。并且我们对系统的训练并不是太长,本来系统是要求大量训练以后才能够得到比较高的识别率的!

───────────────────────────────────────
作者 cyberlife 时间 Mon Jan 9 19:30:11 2006
───────────────────────────────────────
国内的媒体从业人员科学素养都很低,不足为怪
语音识别率95%是不可能的。

有人做过实验,请一个播音员读《石氏食石狮史》,语音识别软件对其识别率是0%
机器就是机器。

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 icelifing 时间 Mon Jan 9 19:32:31 2006
───────────────────────────────────────
自动语音识别系统,是有可能达到95%的,但是,前提条件比较苛刻,并且,语境,说话人,以及其他因素 都会影响 它的识别率的。

我想,这个央视的 记者,应该 对于 语音识别技术,不是很了解,所以,只注意道结果,而没有注意 它的适用范围。

所以,一些人,要注意自己的 话语,对于自己没有 经过了解的事情,不要 妄下结论。就我所知,在中文识别 方面,中国的水平不必国外差!

我曾经做过一个关于 汉语语音识别 的项目。


【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 hqhe 时间 Mon Jan 9 20:00:14 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 cxl 时间 Mon Jan 9 20:00:32 2006
───────────────────────────────────────
不懂不要乱说
人家说95%,不是任何情况的 是有条件限制的
语音识别确实做的很不错了
要不李开复能这么牛么


【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 yeyeyeye 时间 Mon Jan 9 20:02:59 2006
───────────────────────────────────────
此言差矣。 中文是单音节字,没错,但是中文的单音节带来了多音现象。所以,目前通用的中文语音识别系统的字典的最小单元不是单字,而是词。所以,你说波峰,能量等等,其实跟英文多音节上是类似的。

【 在 chengboo 的大作中提到: 】

因为自己曾经研究过语音识别,虽然没有什么成效,但是兴趣和初步知识还是有一点的。中文是单音节字,就是每个字在波形上看只有一个波峰,声音的能量在一个比较集中的时间发送出来,其实大家可以用windows的录音机录几个字仔细观察那个上面的波形图象就看得出来。而不是像英文,有几个波峰,然后还要中间联读什么的,


───────────────────────────────────────
作者 wlkingwife 时间 Mon Jan 9 20:03:31 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】
很是啊。现在的学校也是很多问题
───────────────────────────────────────
作者 泡泡鼠 时间 Mon Jan 9 20:12:58 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 rhythmic 时间 Mon Jan 9 20:32:33 2006
───────────────────────────────────────
政府不出面,谁来打击腐败?
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 anysys 时间 Mon Jan 9 21:28:16 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】

sigh
───────────────────────────────────────
作者 skiunik 时间 Mon Jan 9 21:57:53 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 Loooop 时间 Mon Jan 9 22:15:48 2006
───────────────────────────────────────
这个,好像李开复很早就不做语音识别了吧。
他当年牛的时候语音识别的水平还暴低无比呢
【 在 cxl 的大作中提到: 】


───────────────────────────────────────
作者 bearr 时间 Mon Jan 9 22:23:35 2006
───────────────────────────────────────
是的,真的勇士就该直面这个问题。

───────────────────────────────────────
作者 cslxj 时间 Mon Jan 9 22:36:43 2006
───────────────────────────────────────
这种现象,国人恐怕都见怪不怪了。

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 guobiaohope 时间 Mon Jan 9 22:36:48 2006
───────────────────────────────────────
何止这些,遍地都是

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 净琉璃 时间 Mon Jan 9 22:37:40 2006
───────────────────────────────────────
说句实话,这样的帖子很无聊.
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 nkjerry 时间 Mon Jan 9 22:40:34 2006
───────────────────────────────────────
这篇文章不能证明自动化所的识别率低于95%

还是有证据来批它才好吧
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 tele 时间 Mon Jan 9 22:49:54 2006
───────────────────────────────────────

据我所知,在语音识别方面,自动化所在国内充其量只能算是中等水平,肯定不是
领先的。这从每年国家863测试评比的结果中可以看出来,2003年,本人有幸参加过,
测试的结果自动化所好像是倒数的。

个人认为,现在在语音方面,国内水平最高的应该是中科院声学所,其次是清华大学电子
系,自动化所的水平在他们的后面,具体是多少不是很清楚

【 在 幽灵 (心灵的DD) 的大作中提到: 】

───────────────────────────────────────
作者 daisha 时间 Mon Jan 9 22:57:31 2006
───────────────────────────────────────
乱七八糟的
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 tele 时间 Mon Jan 9 23:01:36 2006
───────────────────────────────────────


那这种条件应该事先声明。如果说有条件限制的而不声明的话,那识别率的结果可以比
95%好很多。下面两种条件就可以使得结果比95%要好,
1. 现有的863的干净语音数据,使用三音子模型就可以得到比这个好的结果
2. 单句有监督的自适应,识别结果在98%以上


【 在 cxl (风) 的大作中提到: 】

───────────────────────────────────────
作者 霍元甲 时间 Mon Jan 9 23:05:01 2006
───────────────────────────────────────
本人认为一般情况下到不了95%,对实验结果表示怀疑.
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 hyl 时间 Mon Jan 9 23:05:04 2006
───────────────────────────────────────
我国的xx投票率也是95%以上

也不能怪央视
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 leihong 时间 Mon Jan 9 23:10:44 2006
───────────────────────────────────────
不行就承认 不要吹啊
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 霍元甲 时间 Mon Jan 9 23:22:18 2006
───────────────────────────────────────
应该再次让863专家进行重新测试.

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 毒日头 时间 Mon Jan 9 23:42:02 2006
───────────────────────────────────────
就当看joke吧
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 梦宇 时间 Mon Jan 9 23:51:10 2006
───────────────────────────────────────
对于这种通过舆论把人打到的方式,极不赞同!!!
一般而言,大部分人并不了解太过专业而又非自己专业的知识,
我想我们有知道的权利,但大部分人没有辩论的理论基础!
希望lz与一些专家讨论问题,或发表文章于刊物,而非大众媒体,左右舆论,杀人于无形!!!(当然,此处并不言此人该不该“杀”)。
如非要在此发表高见,希望附一些佐证,犹如论文之参考文献,研究之理论基础、国内外实际情况等
【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 tropicalfish 时间 Tue Jan 10 00:01:14 2006
───────────────────────────────────────
中科院,我心目中的圣地啊!
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 HUGOHUGH 时间 Tue Jan 10 00:12:49 2006
───────────────────────────────────────

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 bolaris 时间 Tue Jan 10 01:24:44 2006
───────────────────────────────────────
看来我要失业了/
【 在 freesoup 的大作中提到: 】

───────────────────────────────────────
作者 随梦而飞 时间 Tue Jan 10 01:32:12 2006
───────────────────────────────────────
我觉得很有趣,忽然出来了这么多专家,有的楼上的老大仅凭一句:自动化所肯定不是最先进的就能否定人家得出的数据。真是可笑,科学打假也是需要科学态度的,很相像楼上的各位请教,你们认为语音识别的原理是什么?通常能达到的平均水平识别率是多少?国际上哪个国家的水平最高?
我不是这个专业的,很像向各位严厉批评自动化所的大牛们请教一下。
───────────────────────────────────────
作者 bolaris 时间 Tue Jan 10 01:38:02 2006
───────────────────────────────────────
其实李开复对语音的进展是很失望的/

【 在 cxl 的大作中提到: 】

───────────────────────────────────────
作者 zhanghu 时间 Tue Jan 10 08:42:20 2006
───────────────────────────────────────
确实不太相信能达到那么高。
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 yzilong 时间 Tue Jan 10 08:45:49 2006
───────────────────────────────────────
学术诈骗!
欺骗国家!!
欺骗人民!!!
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 wxgsunny 时间 Tue Jan 10 09:18:42 2006
───────────────────────────────────────
有些过了,95%?哈哈,赶紧去申请世界专利吧。

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 gwascool 时间 Tue Jan 10 09:35:51 2006
───────────────────────────────────────
一向都是如此,扬长避短
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 jixiezheng 时间 Tue Jan 10 09:50:26 2006
───────────────────────────────────────
批评的好


【 在 firingfiring (firingfiring) 的大作中提到: 】
───────────────────────────────────────
作者 SUNSWORDER 时间 Tue Jan 10 10:00:51 2006
───────────────────────────────────────
方舟子的证据不足以证明央视报道错误!
尽管汉语和英语识别的原理相同
但是汉语和英语发音有本质不同
“因为英文的识别率达不到而证明中文的识别率达不到”证据显然错误!

大家知道
汉字和英文的识别原理也是相同的
但是用过扫描仪的朋友肯定知道
汉字扫描识别率显然要比英文的高的多

根据个人理解徐的报道:“达到了95%”,
是最高识别率达到95%这种情况还是存在的


【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 pico 时间 Tue Jan 10 10:10:04 2006
───────────────────────────────────────
问题是这个事情应该是自己拿证据证明自己正确,而不是别人没证据证明
自己错误,否则就堕落成绝食的老中医了。

【 在 SUNSWORDER 的大作中提到: 】

───────────────────────────────────────
作者 goldstarman 时间 Tue Jan 10 10:16:07 2006
───────────────────────────────────────
天下好男人都让坏女人给先下手了,好女人都让坏男人给先骗走了。
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 neaitmarch 时间 Tue Jan 10 10:18:00 2006
───────────────────────────────────────
如题,上面的各位,不管是批评的还是维护的,有几位是搞语音识别的?
隔行如隔山,我觉得如果没有充足的证据,或者不是很理解语音识别的原理的,
这样的火力批评还是少说为好。

当然,作为同样参与863语音识别评测的单位来说(我们成绩还不错,呵呵,不管是
跟我们的以往成绩比较还是跟同行比较,但跟自动化所比还是有很大差距),
我们也怀疑过自动化所的95%的识别率,但经过交涉,既然自动化所不愿意公
开测试过程,即使我们也不满意,但在没有进一步的证据的情况下,我还是愿意
相信他们的结果的。

另一方面,这个交涉据我的理解,也存在问题。其实,号召大家怀疑的就是评测排名
弟2和第3的两家单位,曾经劝说我们参与,但我们拒绝了。毕竟如果自动化所真的达
到这么高的标准,作为同行来说,还是挺值得高兴的。

说了这么多,就一个意思,希望批评和维护的都持理智的态度,不管结果如何,都不是
网上的这些人能够靠口头的yy来达到目的的。

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 pico 时间 Tue Jan 10 10:23:17 2006
───────────────────────────────────────
问题在于经费,如果自动化所确实领先这么多,其他人再做就没什么必要。
但如果自动化所并没有领先这么多,却如此宣传,很明显就有公平问题了,
事情不搞清楚怎么成。
当然,如果偶做只达到80%的识别率,或者根本不做实时识别,按照个人自扫
门前雪的原则,当然不会管这种事情。

【 在 neaitmarch 的大作中提到: 】

───────────────────────────────────────
作者 slipby 时间 Tue Jan 10 10:28:45 2006
───────────────────────────────────────
还是要骂两句

不然越来越嚣张

【 在 yourcat 的大作中提到: 】

───────────────────────────────────────
作者 kkykky 时间 Tue Jan 10 10:34:11 2006
───────────────────────────────────────

这是一个学术风气和学术道德的问题!
既然到了这么高的识别率,为什么不出来进行验证。
如果确实能到这么高,我们当然都感到高兴。
但是,为什么面对质疑却不证明给大家看?

【 在 neaitmarch 的大作中提到: 】


───────────────────────────────────────
作者 llama 时间 Tue Jan 10 10:35:28 2006
───────────────────────────────────────
都说真金不怕火练,既然到了95%的水平,别人又拼命怀疑
,(开卷考试质疑也是合理的!)
重测验证一遍用事实堵他们的臭嘴又何妨?
不是提高知名度的又一次“秀"的机会
?为啥死活不重测验证呢?
【 在 neaitmarch (phoenix) 的大作中提到: 】

───────────────────────────────────────
作者 fivestar 时间 Tue Jan 10 10:40:28 2006
───────────────────────────────────────
不是专门搞语音识别的,也不懂其原理,不过感觉这玩艺要造假挺容易的,只要没有一个公认的标准,看来是没有,不然楼上的同行怎么敢怀疑结果呢。你如果去识别对弱智儿童开的特教班老师的语言,估计成功率不低,因为其语速可以说偏慢,并且所用词汇应该比较简单,识别一般的幼儿园老师的话,则要难一点啦,呵呵,新闻联播如果能识别则更难啦,一般的普通话讲得不错的人,则难度又加,如果是带有一点口音的人,恐怕又更难啦。
有人要说,加入一个学习过程不就行了,但是现在对于学习过程的理解非常浅,学习方法有限,且可使用模型的表达能力也是有限的,处理问题的范围和效果都是有限制的。如果语言处理能做得很好,那人工智能里面一些其它的学习问题应该也不难解决。你去看一下论文究竟发了什么类型的,什么标题,发表在什么杂志上也就知道啦,谁能列一下,领先三年的话,起码AI能有一两篇,它的学习方法肯定是很先进的啦。
【 在 neaitmarch 的大作中提到: 】

───────────────────────────────────────
作者 diwang 时间 Tue Jan 10 10:42:29 2006
───────────────────────────────────────

心理有鬼,估计打死他也不会再拿出来公开重新测试的

【 在 llama (BigHead) 的大作中提到: 】

───────────────────────────────────────
作者 tcs 时间 Tue Jan 10 10:43:17 2006
───────────────────────────────────────
虽然不搞语音识别, 但科学研究的方法是相同的. 不敢重复自己的实验, 这说明什么?

【 在 neaitmarch (phoenix) 的大作中提到: 】
───────────────────────────────────────
作者 pico 时间 Tue Jan 10 10:43:43 2006
───────────────────────────────────────
也难说,没准真能达到这么高,这样偶就不用费力气打字了。

【 在 diwang 的大作中提到: 】

───────────────────────────────────────
作者 autolife 时间 Tue Jan 10 10:45:40 2006
───────────────────────────────────────

【 在 neaitmarch 的大作中提到: 】
这倒不错的
───────────────────────────────────────
作者 llama 时间 Tue Jan 10 10:46:37 2006
───────────────────────────────────────
要真是这样,昨天的科学大会就该给他们颁发国家发明特等奖!
【 在 pico (大熊) 的大作中提到: 】


───────────────────────────────────────
作者 sldm 时间 Tue Jan 10 10:56:07 2006
───────────────────────────────────────
中国的浮夸风历来都很厉害
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 neaitmarch 时间 Tue Jan 10 10:59:50 2006
───────────────────────────────────────
解释一下:863的评测是有统一的标准的。
从863评测中心得到待识别语料,在自己实验室的机器上跑2天左右,应该就能出结果,在第一次出结果之后,如果不理想,原则上允许修改一些参数,重新识别一遍。一般(我们的经验)来说,修改过参数之后,识别率能提高个10左右。这个过程是可以理解的,因为即使是真正的商业识别,也应该有一个对特定环境和特定话者学习适应的过程。
上面修改参数的过程是可以理解并且是合适的,只要你的参数是针对所有语料(毕竟修改一些参数对打数据量的参数都适应,是很困难的)。

有可能出问题的地方是:最后提交的识别结果的文档是公开的,当然你可以把这个文档作为只读文件直接发给评测中心。

【 在 fivestar 的大作中提到: 】


───────────────────────────────────────
作者 neaitmarch 时间 Tue Jan 10 11:01:54 2006
───────────────────────────────────────
语音识别的蛋糕是很大的,不可能一个单位完全吃掉。
所以能吃上蛋糕的人和想吃更多蛋糕的人的思维是不一样的。

【 在 pico 的大作中提到: 】

───────────────────────────────────────
作者 pico 时间 Tue Jan 10 11:06:05 2006
───────────────────────────────────────
想吃更多蛋糕没什么问题吧,只要手段合适:-) 偶对自动化所没什么成见,
只是他们确实不该让别人抓住把柄。

【 在 neaitmarch 的大作中提到: 】

───────────────────────────────────────
作者 diwang 时间 Tue Jan 10 11:07:14 2006
───────────────────────────────────────

最有可能出问题的地方,应该是拿要识别的语音训练模型再返回来识别吧?

【 在 neaitmarch (phoenix) 的大作中提到: 】
蛭溆锼倏梢运灯⑶宜么驶阌Ω帽冉霞虻ィ侗鹨话愕挠锥袄鲜Φ幕埃蛞岩坏憷玻呛牵挛帕ト绻?


───────────────────────────────────────
作者 neaitmarch 时间 Tue Jan 10 11:14:27 2006
───────────────────────────────────────
呵呵,返回识别应该不太可能。但修改参数,重复识别这应该是行业内可以接收的。
因为识别还是很难的,一遍的结果肯定很差。
btw,争论这个话题我觉得很没有意义,其实不管最后的结果谁是第一,都不光彩。
国内参与评测的单位,有几个是完全用自己的核心程序?说白了,都是从剑桥开发,微软买断的HTK中拔出来的程序!!
这才是最值得讨论的话题。

【 在 diwang 的大作中提到: 】


───────────────────────────────────────
作者 fivestar 时间 Tue Jan 10 11:14:37 2006
───────────────────────────────────────
这么说,在参数的设置上就可能出现问题,如果待识别数据不多,或者不够典型的话,就可能引入较多的参数,使当前方法去拟合测试数据.
另外,关于测试集与学习集的分割也有问题,根据您的帖子,好象测试集与学习集是预先确定好的,并且在处理完一次可以调整参数,则显然是可以做假的,应该交叉验证,这样通过人为方式去拟合的可能就减小啦.
至于直接修改数据,那只能BS啦.
【 在 neaitmarch 的大作中提到: 】

───────────────────────────────────────
作者 freesoup 时间 Tue Jan 10 11:16:52 2006
───────────────────────────────────────
哎其实这种评测机制就有问题
黑箱操作, 递交得结果也不公布, 倘若去看看句子得识别率估计可以看出点问题。
语言模型可以做
当然这次得评测,都是从人民日报得网站上来得,把哪个网站down 下来做个本地得搜索,也是可以做的
凭真正的技术,达到95%的识别率,恐怕的确是不能让人信服的吧。

【 在 neaitmarch 的大作中提到: 】


───────────────────────────────────────
作者 cfms 时间 Tue Jan 10 11:17:18 2006
───────────────────────────────────────
为什么不能达到95%呢?
看到的只不过是再猜测,应该很好验证的吧。

【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 fivestar 时间 Tue Jan 10 11:17:56 2006
───────────────────────────────────────
嗯,不错,我也是这样感觉的,这种方法肯定不能为人工智能的同道所接受.
【 在 diwang 的大作中提到: 】

───────────────────────────────────────
作者 fooleu 时间 Tue Jan 10 11:27:54 2006
───────────────────────────────────────
你确定所有参加的都是这么搞的?
测试集用来调参数,那开发集是用来干什么的?
sb
【 在 neaitmarch 的大作中提到: 】


───────────────────────────────────────
作者 freesoup 时间 Tue Jan 10 11:35:47 2006
───────────────────────────────────────
如果是语言模型或者是先验搜索,虽然也没违反评测的大纲, 可那压根就不是做学问的态度


【 在 freesoup 的大作中提到: 】


───────────────────────────────────────
作者 edwardgao 时间 Tue Jan 10 11:43:59 2006
───────────────────────────────────────
情况是这样的:
S : 我不信
A: 我就是牛
S: 我就是不信
A: 我就是牛
S: 有种我们试一试
A: 我就是牛
S: 真的,试一试就好了
A: 我就是牛
老先生:这么光荣的事为什么不肯拿出来大家试试看呢
863:呵呵,哈哈哈哈哈
A: 我就是牛
某人:我就是不信
A: 你丫不懂,一边凉快去
A: 我就是牛……

……………………

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 firingfiring 时间 Tue Jan 10 11:44:32 2006
───────────────────────────────────────

文章出自新语丝,楼主只是转载。

需要质疑的似乎是zququ 的身份。

【 在 zququ 的大作中提到: 】


───────────────────────────────────────
作者 nightlight 时间 Tue Jan 10 11:45:33 2006
───────────────────────────────────────
全是揣测性的语言,
没什么有力的根据

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 雪圣 时间 Tue Jan 10 11:48:45 2006
───────────────────────────────────────
.....
【 在 firingfiring 的大作中提到: 】

───────────────────────────────────────
作者 firez 时间 Tue Jan 10 11:52:58 2006
───────────────────────────────────────
哈哈哈哈,这个搞~

【 在 edwardgao 的大作中提到: 】


───────────────────────────────────────
作者 yourcat 时间 Tue Jan 10 11:55:18 2006
───────────────────────────────────────
你有什么判断,说来听听
【 在 zququ 的大作中提到: 】

───────────────────────────────────────
作者 firez 时间 Tue Jan 10 11:58:49 2006
───────────────────────────────────────
嗯,同意,应该有证据才好

自动化所应该把系统拿出来再测,

重测的话条件不同了,结果稍有出入,只要表差太大,大家也应该能理解哈

公开了,大家不就闭嘴了?

然后我们一起痛拍楼主,揣摩其险恶用心,

然后洗洗睡了。

捂着不让重测的话……窃以为这本身就是一种证据……

【 在 nightlight 的大作中提到: 】


───────────────────────────────────────
作者 daisha 时间 Tue Jan 10 11:59:08 2006
───────────────────────────────────────
这种文章不是专家没有什么资格写的,好像自己很厉害其实经常错误百出的

【 在 firingfiring 的大作中提到: 】


───────────────────────────────────────
作者 yeyeyeye 时间 Tue Jan 10 12:01:18 2006
───────────────────────────────────────
吵什么吵!小兔崽子,没见过大人说话,小孩不许插嘴吗!
^_^。

问题的关键是这种比赛没有一家权威的机构可以中立来主持公道!

───────────────────────────────────────
作者 yourcat 时间 Tue Jan 10 12:02:31 2006
───────────────────────────────────────
我不是水稻专家,但我也知道亩产万斤是放卫星
【 在 daisha 的大作中提到: 】

───────────────────────────────────────
作者 neaitmarch 时间 Tue Jan 10 12:10:33 2006
───────────────────────────────────────
呵呵,你骂我。我不会同样的骂你的,你放心。
你是做语音识别的么?你参加过这种测试么?
我上面说的话严格分析会有问题,因为我省略了一些说明。
你知道我说的参数具体是什么意思么?
如果你能告诉我,我立刻把我的帖子全部删除,并且你可以向评测中心报告,就说还有一个单位造假。

【 在 fooleu 的大作中提到: 】


───────────────────────────────────────
作者 fivestar 时间 Tue Jan 10 12:14:25 2006
───────────────────────────────────────
在DBLP上查了一下XU BO和BO XU的文章,里面显然还有一个搞通信的,除去明显属于通信的文章,有下面文章.
1.ZhiQiang Wang, Yang Liu, Peng Ding, Xu Bo: Covariance-Tied Clustering Method In Speaker Identification. ICMI 2002: 81-86
2 EE Rong Zheng, Shuwu Zhang, Bo Xu: A Comparative Study of Feature and Score Normalization for Speaker Verification. ICB 2006: 531-538
2005
3 EE Yongguo Kang, Zhiwei Shuang, Jianhua Tao, Wei Zhang, Bo Xu: A Hybrid GMM and Codebook Mapping Method for Spectral Conversion. ACII 2005: 303-310
4 EE Wenjie Cao, Chengqing Zong, Bo Xu: Investigation of Emotive Expressions of Spoken Sentences. ACII 2005: 972-980
5 EE Bo Xu, Dongyi Jiang, Jun Li: HSM: A Fast Packet Classification Algorithm. AINA 2005: 987-992
6 EE Youzheng Wu, Jun Zhao, Bo Xu: Chinese Question Classification from Approach and Semantic Views. AIRS 2005: 485-490
7 EE Qianli Jin, Jun Zhao, Bo Xu: Window-Based Method for Information Retrieval. IJCNLP 2004: 120-129
8 EE Feifan Liu, Qianli Jin, Jun Zhao, Bo Xu: Bilingual Chunk Alignment Based on Interactional Matching and Probabilistic Latent Semantic Indexing. IJCNLP 2004: 416-425
9 EE Rong Zheng, Shuwu Zhang, Bo Xu: Improvement of Speaker Identification by Combining Prosodic Features with Acoustic Features. SINOBIOMETRICS 2004: 569-576
10 EE Yu Zhou, Chengqing Zong, Bo Xu: Bilingual chunk alignment in statistical machine translation. SMC (2) 2004: 1401-1406
11 EE Yishan Wu, Yuntao Pan, Yuhua Zhang, Zheng Ma, Jingan Pang, Hong Guo, Bo Xu, Zhiqing Yang: China Scientific and Technical Papers and Citations (CSTPC): History, impact and outlook. Scientometrics 60(3): 385-397 (2004)
2003
12 EE Guodong Xie, Chengqing Zong, Bo Xu: A Maximum Entropy Approach for Spoken Chinese Understanding. CICLing 2003: 91-100
13 EE Qianli Jin, Jun Zhao, Bo Xu: NLPR at TREC 2003: Novelty and Robust. TREC 2003: 126-137
14 EE Yan Zhang, Bo Xu, Chengqing Zong: Chinese Syntactic Parsing Based on Extended GLR Parsing Algorithm with PCFG*. COLING 2002
15 EE Hong Zhang, Bo Xu, Taiyi Huang: Statistical Analysis of Chinese Language and Language Modeling Based on Huge Text Corpora. ICMI 2000: 279-286
16 EE Chengqing Zong, Taiyi Huang, Bo Xu: Approach to Recognition and Understanding of the Time Constituents in the Spoken Chinese Language Translation. ICMI 2000: 293-299
17 EE Ana Lelescu, Ouri Wolfson, Bo Xu: Approximate Retrieval from Multimedia Databases Using Relevance Feedback. SPIRE/CRIWG 1999: 215-223
1998

【 在 nightlight 的大作中提到: 】

───────────────────────────────────────
作者 fivestar 时间 Tue Jan 10 12:16:42 2006
───────────────────────────────────────
水平究竟有没有达到国际水平,搞语音处理的来评一下.反正他们的学习方法肯定没有发到很好的机器学习会议及刊物上.
【 在 fivestar 的大作中提到: 】

───────────────────────────────────────
作者 yourcat 时间 Tue Jan 10 12:17:00 2006
───────────────────────────────────────
如果是正确,大家当然可以高兴,问题是95%的正确率可能吗?既然你也参加了这次比赛,那你也算是行内人了,对国内外语音识别的水平也是有了解的,你自己问问自己,在这次比赛的环境下,95%可能吗?如果大家都这样搞,你吹一个95%,我吹一个96%,那语音识别还有什么意义,那不整一个吹牛大会了吗?
在徐波他们拒不接受重新测试的情况下,你来个“我还是愿意相信他们的结果的”,你作为知识分子的良知去哪了。
当然你完全可以继续事不关己,高高挂起,无所谓了,文人相轻嘛,不说了,漂过。
【 在 neaitmarch 的大作中提到: 】
:如题,上面的各位,不管是批评的还是维护的,有几位是搞语音识别的?
隔行如隔山,我觉得如果没有充足的证据,或者不是很理解语音识别的原理的,
这样的火力批评还是少说为好。

当然,作为同样参与863语音识别评测的单位来说(我们成绩还不错,呵呵,不管是
跟我们的以往成绩比较还是跟同行比较,但跟自动化所比还是有很大差距),
我们也怀疑过自动化所的95%的识别率,但经过交涉,既然自动化所不愿意公
开测试过程,即使我们也不满意,但在没有进一步的证据的情况下,我还是愿意
相信他们的结果的。

另一方面,这个交涉据我的理解,也存在问题。其实,号召大家怀疑的就是评测排名
弟2和第3的两家单位,曾经劝说我们参与,但我们拒绝了。毕竟如果自动化所真的达
到这么高的标准,作为同行来说,还是挺值得高兴的。

说了这么多,就一个意思,希望批评和维护的都持理智的态度,不管结果如何,都不是
网上的这些人能够靠口头的yy来达到目的的。


───────────────────────────────────────
作者 fooleu 时间 Tue Jan 10 12:19:26 2006
───────────────────────────────────────
这个,
NIST的评测不知道算不算
在那上面,测试集一旦发布,对系统的任何改动都是不允许的,你可以去看他们任何评测的大纲,
也可以去看国际国内的任何评测大纲。

哥们,
我不是一定要骂你
对这个破评测本来也不关心,倒是对科研本身比较感兴趣。
只是看到你的论调后有些担心
怕以后万一你有机会了,出去了也这么个说法,介个,大家还是要面子的。。。。。。

【 在 neaitmarch 的大作中提到: 】


───────────────────────────────────────
作者 yourcat 时间 Tue Jan 10 12:28:57 2006
───────────────────────────────────────
如果是从别人那拔出来的程序,就永远不可能做得到最好,所以说老兄,就不要以己度人了
【 在 neaitmarch 的大作中提到: 】
:: 国内参与评测的单位,有几个是完全用自己的核心程序?说白了,都是从剑桥开发,微软买断的HTK中拔出来的程






所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl