互联网过滤技术初探



所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: Yush 于 2005-8-13, 14:41:04:

估计中国的互联网过滤技术还处在“初级阶段”,不大可能对HTTP网页或电子邮件的内容进行自动识别后自动加以封锁,目前“自然语言理解”技术根本达不到这个水平。

所采取的技术,一是设置网站黑名单,直接禁止对特定IP地址而不是对特定网页的访问。黑名单有可能是对网页内容进行初步的自动分析后,最终由人工设置的,或者干脆就是全人工设置。这可以解释在国内不能访问新语丝但可以访问镜像的现象。新语丝本站与镜像的区别在于后者没有论坛,而敏感内容则出自论坛,如果某镜象敢于加上论坛,很有可能也会被屏蔽。

技术之二则是国内搜索引擎(百度、搜狐、搜狗、新浪、雅虎中国、MSN中国)的“自我审查”,即不收录含有敏感内容的网页。自我审查的方式,有可能是对网页自动分析辅以人工干预,不大可能是一刀切(即凡是来自国外的包含敏感词的网页均排除在外)。造成的结果,如果是自动分析为主,则是“宁可错杀三千,也不放过一个”,且免不了“挂万漏一”;如果是人工干预为主,则需要大量人力。

技术之三是对国外代理服务器的侦测。国内用户通过代理服务器可绕过网站黑名单,但对代理服务器的访问模式不同于访问普通网站,送出的数据流中绝大部分是URL字符串,且URL所指向的网站繁多,而对普通网站访问时送出的URL所指向的网站是单一的。所以,代理服务器使用一段时间后就很容易被自动侦测出来而被禁止。

技术之四则导致了最近发现的一个奇怪现象,即国外用户不能用国内搜索引擎搜索敏感词。经实验,发现该技术是在国内与国外网络连接的进出口上对HTTP参数而非对网页内容进行过滤。凡是在参数中出现敏感词的HTTP请求均予以屏蔽,以此来对付国内对国外搜索引擎的访问,因为搜索引擎是靠HTTP参数来接收要搜索的关键词的。该技术极其拙劣,却十分有效。你不能用国外搜索引擎搜索敏感词、而由于技术二的采用,用国内搜索引擎只能搜索到“干净”的内容,所以,即使某个含有敏感词的网站不在网站黑名单上,你也不知道它的网址。说其拙劣,是因为它对所有进出“国门”的HTTP参数都进行过滤,根本不管数据流的方向、不管所访问的网址是否搜索引擎,客观后果之一是限制了国外用户用国内搜索引擎搜索敏感词。

由此可见,中国的互联网过滤技术并非先进,但却相当有效。突破网络封锁的方法也很简单,根本用不着什么高级加密技术之类,目前看来使用代理服务器即可。可惜绝大多数国内用户不懂突破网络封锁的方法,大部分人连代理服务器都不会用。

附:技术四实验过程
在国外用以下方式访问国内的任意网页(默认网页如index.html除外),例如现在的人民网头版头条:
1. 正常方式
http://politics.people.com.cn/GB/1027/3613060.html
2. 后加任意参数,如代表“方舟 子”(中间有空格)的十六进制汉字编码的参数
http://politics.people.com.cn/GB/1027/3613060.html?x=%B7%BD%D6%DB+%D7%D3
3. 后加包含敏感词的参数,如“方舟子”
http://politics.people.com.cn/GB/1027/3613060.html?x=%B7%BD%D6%DB%D7%D3
其中方式1、2均能顺利访问,方式3则“该页无法显示”,并且该网页及该网站除默认网页外的其它网页在一定时间内不能再用正常方式访问。
在国内用上述方式访问国外的任意网页应该是同样结果。




所有跟贴:


加跟贴

笔名: 密码(可选项): 注册笔名请按这里

标题:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项):


所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl