◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys1.dyndns.org)(xys.3322.org)◇◇   对聋岛主“对手机短信控制的一点看法”的补充   BerkeleyWolf   本狼非常赞同聋岛主"对手机短信控制的一点看法",本文仅仅作一点技术上 的补充。   本狼曾经参与一国内大型电信制造商的客户服务中心平台的设计和开发工作, 并成为改产品研发的产品经理。在那个产品中,短消息中心是增值平台上的一个 业务。本狼在美国进行网络和分布式系统的研究,特别是Internet和Web技术。 就技术本身而言,本狼认为对短消息内容的控制非但能够实现,而且比对Web内 容的控制要容易。本文从几个方面进行探讨。   1:系统开放性上的比较   Internet和电信网络都是分布式系统,都有一系列的标准需要遵循。但是, Internet可以说比电信网络更加开放(Open System Architecture) ,更容易进 行网间的互连 (Internetworking) ,而且新的技术研究也更加活跃(例如HTTP协 议目前仍不断进行修改)。电信网络比较成熟,网络进化比较缓慢。虽然到目前 为止,短消息业务还没有完整的标准,但是短消息的电信网络接口已经非常标准 了。Internet 和 Web新技术的层出不穷,在一定程度上意味着对Internet上信 息的控制比对电信网络上信息的控制要更困难一些。   2:信息存储中心数目上的比较   Web 网页一般都存储在WEB SERVER上,通过用户的Web Browser进行访问。 Internet的用户需要通过ISP接如到Internet,ISP的数目比较多,信息的提供商 业(Content Service Provider) 的数目更多。理论上讲,任何一个有合法IP的 计算机都可以成为互联网上的一个Web Server。免费的HTTP服务器软件(例如: apache server) 使个人设立自己的网站非常容易。因此对於Web信息提供商的行 政管理比较困难,对个人网站的管理更加困难。   而短消息,不论多少个用户使用,最终要受短消息中心的控制。中国的短消 息中心一般属於中国电信和中国联通,都是国有企业(中国电信以前还算政府部门) ,统一都信息产业部的直接行政管理。而一个大型的短消息中心一般可以服务一 百万用户(用户容量计算一般按照爱尔兰指标和用户收敛比,没有很精确的公式。) 一个大城市的客户服务中心的数目是非常有限的。有限数目的,高度可控的短消 息中心比近乎于无限数目,分散控制的Web server,更容易对信息进行控制。而 升级短消息中心程序也比升级网络部件就工程本身而言要容易的多。   3:集中控制和分布式控制   Internet的这种全分散(fully distributed)的结构,不利於进行集中信息 控制(centralized content control)。对Internet信息的控制因此是立体的, 多层次的。从可以配合web browser使用的关键字过滤软件, 到ISP proxy上的信 息过滤(content filtering)软件, web server的content filtering,国际出口, 骨干路由器IP封锁甚至DNS Hijacking,网络信息控制技术蓬勃发展。参见10节 相应链接。   自动内容过滤(content filtering)现在一般通过代理服务器(proxy)来实现。 对於WEB内容过滤技术,可以参见Michael Rabinovich, Oliver Spatscheck著的 Web Caching and Replication (Publisher: Addison Wesley Professional ISBN: 0201615703) 第3部分: adding services on the edge,这里就不再展开。 然而用proxy的方式对於非文本的内容过滤比较困难,下一部分有详述。当然对 於网络的IP地址采用一封了之的方式,也就不存在内容过滤的问题了。但封IP的 做法,本狼认为近乎于野蛮。   当然,通过强大的搜索引擎,可以人工发现有敏感信息的网站,然后在ISP 的PROXY SERVER或者骨干路由器上进行IP封闭也可以。   如同聋岛主的文章中介绍的一样,短消息中心一般设有人工和自动两种服务。 "一种是人工台,就是任何人可以打电话到联通公司的短信服务台,告诉接电话 的小姐对方的手机号码和短消息的内容,小姐会在操作台上输入这些内容并发送。 "在人工业务方式下,发送受控信息应该是不可能的。又红又专的中国电信话务 员可以拒绝你的发送请求。而自动业务的接口就相对来说比较复杂一些。聋岛主 介绍说"另一种是自动台,在自己的手机上输入短消息内容然后发送"。其实自动 业务还包括通过网页发送短消息,通过EMAIL发送短消息等等。但是不管自动业 务的界面和接口如何,短消息都"殊途同归,都会在SMSC(短消息服务中心)接受 同一计算机程序的处理。"短消息作为字符串,一般存储在数据库中。而外呼 (outbound)程序(就是一种循环扫描这个数据库,看有没有新的短消息需要发送 的程序) 把短消息通过电信接口程序发出。具体的短消息技术细节和网络信令非 常复杂,但是,短消息在本质上是存储转发(store-and-forward)方式。计算机 对於字符串的处理可以说是不费吹灰之力,"所以也可以很方便的额外加入屏蔽 功能,凡短信中出现某些预先设定的词汇,拒绝发送该消息,还可以登记发送和 接收的手机号码。甚至,该词汇库可以很方便地与图形界面接口,由专人动态维 护和修改。"   4:媒体比较   短消息是字符串,Web一般包含多种媒体。字符串的信息过滤非常容易,其 查找匹配算法计算机科学已经研究了很多年,这里就不罗嗦了。   而Web页面上,除了字符串之外,还有多媒体的对象。假设一篇文章是用图 形文件(例如gif文件)进行传播的,现有模式识别( pattern recognition ) 技 术还不能识别里面的敏感信息。flash等多媒体中包含的信息更是无法过滤。因 此在理论上讲,可以开发一个网站来有效地对抗过滤,方法如下:Web Server 程序 ( 例如CGI,Servlet,ASP ) 对用户POST的纯文本文字进行过滤,对所有 官方控制的敏感词汇都一律用写上汉字的图形文件替代。这样整个网页图形和文 字混排。大家可能已经见过用写上自己EMAIL地址的图形文件的方法来有效对抗 SPAM了。因为spider (or say crawler, indexer) 程序识别不了这个图形文件 上的email地址信息。   5:用户识别上的比较   手机用户要用实名进行登记,而每一条短消息都附加手机号码的信息,因此 在这种意义上短消息系统用户的身份非常容易识别。网络上记录用户的是IP地址, 和实际的人没有直接对应关系。虽然有很多技术可以追踪网络用户的身份,但是 仍然存在更多的技术进行有效对抗:例如IP地址欺诈,利用代理程序进行转发等 等。所以我那些精通电信的朋友,看到有敏感信息的短消息,一般都立即删除, 绝对不再转发。因为他们知道,如果短消息受控的话,FBI(人民警察)一个小时 之后就可以敲你的门了。而网络用户身份的识别,利用的技术更复杂,需要追踪 的渠道更多。   6:事前防止和事后防御   网络的信息过滤一般是"事后防御" 。HTTP的POST命令把用户的数据(例如留 言) 发送给WEB服务器。POST命令本身把所有的用户数据作为一个OBJECT进行传 递,并不能对信息进行识别和过滤。当然WEB服务器程序可以加入过滤功能,禁 止敏感数据POST到网站上。但是,如同上文所说,WEB服务器程序可以掌握在"广 大人民群众" 手中。理论上讲,任何人都可以设置自己的服务器。"事后防御" 也指人工检查并且封锁网站,或者当一个用户用HTTP的GET命令获取页面的时候, PROXY进行内容过滤。对於敏感信息,返回"页面错误" 的信息,并且自动封锁到 禁止页面数据库中。   短消息完全可以做到"事前防止" 。如前文所述,过滤程序加在发送短消息 的短消息中心,从而从根本上防止敏感信息的传播。从理论上讲,可以做到没有 一个敏感信息的短消息在网络上传播。   7:信息数目   最强大的搜索引擎GOOGLE能够检索30亿个WEB PAGE(7月16日统计) 。而 GOOGLE能够检索到的页面不到互联网上所有页面的一半。还有很多网页是搜索引 擎永远无法达到的。GOOGLE用1000 多台主机对信息进行索引,可以说明网络信 息上的信息工程非常庞大。敏感信息更是"野火烧不尽,春风吹又生" 。   相反,短消息数目有限,一般是几百个字符。其"事前防止" 的可能,使得 信息处理更加简单。   8:信息过滤的难题   WEB上的信息过滤从本质上是非常复杂的计算机科学问题。不管网络信息还 是短消息,字符串匹配是目前敏感词汇过滤的最基本方式。而人工智能的发展仍 然出於初级阶段,计算机不可能有效地理解信息内容本身(语义)。对於谐音,别 名,通假,现有的过滤技术也无能为力。而对敏感信息正常探讨的信息,过滤是 用最粗暴的方式进行拒绝。本狼不支持用于"防民之口胜于防渊" 的信息过滤技 术的研究,但对信息过滤本身引发的学术问题表示关注。   9:总结   方舟子认为"控制手机短信,从操作性来说实际上要比控制网络更不容易。 因为它现在控制网络就是在国际出口上把你给卡住。控制手机短信,这就涉及到 各个用户,人数就多多了,需要控制的渠道就太多了。我认为他们做到这点是很 难的。"   对於以上评论本狼不仅不敢苟同,而且认为控制短信比网络信息更容易。网 络信息过滤是比较复杂的技术,否则也不会有人吹嘘中国的网络过滤技术世界领 先了。 手机用户"人数就多多了,需要控制的渠道就太多了" 也不正确。除非手 机用户能够点对点进行通信(而现在是不可能的) ,手机的人数多少并不能说明 控制的难和易。【方舟子按:我主要指的就是对IP一封了之的控制方法,这是目 前中国普遍采用的方法,而BerkeleyWolf也认为这是最简单的“野蛮”方法。】   信息过滤技术和反过滤技术本身有很多内容值得探讨,本文仅仅抛砖引玉。 本文局限于技术本身,不对信息过滤技术的其他问题作任何评论。   10 附加信息(randomly selected on line):   http://www.dajiyuan.com/gb/3/4/5/n296328.htm 北京大学短消息过滤技 术   http://www.datablue.com.cn/products/wangzhan2.html 是一种WEB SERVER上的信息过滤技术。    http://www.leiyu.com/acti/ProductIntroduce.asp?productno=10HFAXKA001 是一种browser 上的过滤。   http://www.infosec365.com.cn/wangyushidian/wangyushidian_13.htm 联 想的防火墙过滤技术   http://www.yesky.com/20011212/209422.shtml 联想   http://www.zetronic.com.cn/product/school.htm   http://www.cdqyei.net/qyei1/12gonggao/jydj/dgzhljrjtz.htm   成都市教育信息技术中心文件(关于组织订购《中华滤剑》信息过滤软件的 通知)   http://www.dajiyuan.com/gb/3/3/27/n292309.htm 白色恋人:伟大的科学   11 感谢   感谢新语丝读书论坛上的技术探讨。特别是:方舟子,PhonyDoctorPhD, slashdot,zhenjiawen等等。 (XYS20030717) ◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys1.dyndns.org)(xys.3322.org)◇◇