Zt: 使用Google找出一个词的意义与用法



所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: Latino2 于 2005-2-14, 12:02:13:

例如於google键入fagus与Hunhunsheng此两个词,几乎可以搜寻到14000笔资料,不过
若键入fagus与Latino2此两个词,则仅有700笔资料,很明显的,fagus与Hunhunsheng之间的
关联性较fagus与Latino2为强。 ”=========================================

Zt: 使用Google找出一个词的意义与用法

以Google搜寻不同字词同时出现在同一网页的频率来定义字词间的关联性,人工智
能或许能够开始了解字词的义意。

对文字工作者而言,无论是写作或译述,Google已经是不可或缺的重要工作利器了,
比方说在翻译一个陌生的英文字词时,许多人都会将想要转译的字词google几次(
“to google”已经变成一个动词了),然后从搜寻到的千百笔资料中,研判哪个中
文意思最接近。例如我压根儿不知“fluorescence microscopy”是啥意,於是把fluorescence
microscopy”丢入Google,google出了好多笔资料都提到萤光显微镜,而且出现的频
率很高,於是很笃定的认为“fluorescence microscopy”就是萤光显微镜。所以许
多人除了以Google搜寻资料之外,亦以Google进行文字意义的处理与辨识。

一个字词的意义经常能从其他与它并用的字眼而获得,例如"rider"这个英文字,经
常与"horse" 以及"saddle"一道出现,所以从horse、saddle、rider此些字眼的关
联性可以推测出rider的意思了,於是八九不离十,rider和马、马鞍有关。当然企
图从上千万的字词关系析出其意义,需要一个庞大、详尽的资料库,否则怎知rider
与horse、saddle 一起出现的频率很高,thanks god,我们有一个现成且免费的Google。

荷兰阿姆斯特丹数学与电脑科学学院的Paul Vitanyi与Rudi Cilibrasi发现Google搜
寻引擎能用来检测两个字词之间的关联性,例如电脑想要知道“hat”为啥,首先得
建立一个字词树状结构,亦即一个足以显现字词之间关联性的资料库,此种树状结
构资料库可以从任两个字词开始,去了解其间的关联性,例如於google键入hat与head此
两个字词,几乎可以搜寻到8,800,000笔资料,不过若键入hat与banana此两个字词,
则仅有576,000笔资料,很明显的,hat与head之间的关联性较hat与banana为强。


为了要量测其关联性,Vitanyi 与Cilibrasi基於搜寻到的资料笔数发展了一种统计
指标,能显示一对字词之间的逻辑距离,并称之为正常化的Google距离(normalized
Google distance, NGD),NGD越低,两个字词之间的关联性越紧密。对许多的字词
对(pairs of words)重复上述统计过程,即可能建立字词对之间的关联性距离图谱,
显示此些字词之间的关联性,电脑由此即能推测出某个字词的意义。Vitanyi.认为此
即电脑的字词意义萃取机制,能让电脑辨识字词。研究人员根据其在Google搜寻到
的资料笔数与出现频率,已经能利用电脑辨识出颜色、数字与不同宗教等字词的意
义。

Google's search for meaning  28 January 2005
Exclusive from New Scientist Print Edition ,by Duncan Graham-Rowe






所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl