互联网过滤技术初探

所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl

送交者: Yush 于 2005-8-13, 14:41:04:

估计中国的互联网过滤技术还处在“初级阶段”，不大可能对HTTP网页或电子邮件的内容进行自动识别后自动加以封锁，目前“自然语言理解”技术根本达不到这个水平。

所采取的技术，一是设置网站黑名单，直接禁止对特定IP地址而不是对特定网页的访问。黑名单有可能是对网页内容进行初步的自动分析后，最终由人工设置的，或者干脆就是全人工设置。这可以解释在国内不能访问新语丝但可以访问镜像的现象。新语丝本站与镜像的区别在于后者没有论坛，而敏感内容则出自论坛，如果某镜象敢于加上论坛，很有可能也会被屏蔽。

技术之二则是国内搜索引擎（百度、搜狐、搜狗、新浪、雅虎中国、MSN中国）的“自我审查”，即不收录含有敏感内容的网页。自我审查的方式，有可能是对网页自动分析辅以人工干预，不大可能是一刀切（即凡是来自国外的包含敏感词的网页均排除在外）。造成的结果，如果是自动分析为主，则是“宁可错杀三千，也不放过一个”，且免不了“挂万漏一”；如果是人工干预为主，则需要大量人力。

技术之三是对国外代理服务器的侦测。国内用户通过代理服务器可绕过网站黑名单，但对代理服务器的访问模式不同于访问普通网站，送出的数据流中绝大部分是URL字符串，且URL所指向的网站繁多，而对普通网站访问时送出的URL所指向的网站是单一的。所以，代理服务器使用一段时间后就很容易被自动侦测出来而被禁止。

技术之四则导致了最近发现的一个奇怪现象，即国外用户不能用国内搜索引擎搜索敏感词。经实验，发现该技术是在国内与国外网络连接的进出口上对HTTP参数而非对网页内容进行过滤。凡是在参数中出现敏感词的HTTP请求均予以屏蔽，以此来对付国内对国外搜索引擎的访问，因为搜索引擎是靠HTTP参数来接收要搜索的关键词的。该技术极其拙劣，却十分有效。你不能用国外搜索引擎搜索敏感词、而由于技术二的采用，用国内搜索引擎只能搜索到“干净”的内容，所以，即使某个含有敏感词的网站不在网站黑名单上，你也不知道它的网址。说其拙劣，是因为它对所有进出“国门”的HTTP参数都进行过滤，根本不管数据流的方向、不管所访问的网址是否搜索引擎，客观后果之一是限制了国外用户用国内搜索引擎搜索敏感词。

由此可见，中国的互联网过滤技术并非先进，但却相当有效。突破网络封锁的方法也很简单，根本用不着什么高级加密技术之类，目前看来使用代理服务器即可。可惜绝大多数国内用户不懂突破网络封锁的方法，大部分人连代理服务器都不会用。

附：技术四实验过程
在国外用以下方式访问国内的任意网页（默认网页如index.html除外），例如现在的人民网头版头条：
1. 正常方式
http://politics.people.com.cn/GB/1027/3613060.html
2. 后加任意参数，如代表“方舟子”（中间有空格）的十六进制汉字编码的参数
http://politics.people.com.cn/GB/1027/3613060.html?x=%B7%BD%D6%DB+%D7%D3
3. 后加包含敏感词的参数，如“方舟子”
http://politics.people.com.cn/GB/1027/3613060.html?x=%B7%BD%D6%DB%D7%D3
其中方式1、2均能顺利访问，方式3则“该页无法显示”，并且该网页及该网站除默认网页外的其它网页在一定时间内不能再用正常方式访问。
在国内用上述方式访问国外的任意网页应该是同样结果。

所有跟贴:

SSL和S/MIME是不是不让使用？ - NewL (148 bytes) 2005-8-13, 22:54:20
武汉市要求所有网吧安摄像头,让监控中心能调阅所有上网者情况 - 磁人 (0 bytes) 2005-8-13, 21:26:19
一度有一种手段是封锁特定域名服务器的IP - calc (735 bytes) 2005-8-13, 21:23:34
different level of control - jiangzhaiwai (835 bytes) 2005-8-13, 16:15:28
很抱歉文中误做的中国互联网过滤技术还处在“初级阶段”的结论 - Yush (579 bytes) 2005-8-13, 16:01:54
- 我觉得你说也没什么错。 - bluesea (596 bytes) 2005-8-13, 16:21:30
  - 从互联网过滤的广度、深度来看，确实不是“初级阶段”了。但我仍然认为其技术拙劣 - Yush (0 bytes) 2005-8-14, 03:30:23
  - 你不相信国内的事情多了 - 天蓝蓝 (83 bytes) 2005-8-13, 20:21:40
    - 你还真会扯 - bluesea (238 bytes) 2005-8-13, 20:54:33
      - 那是执行部门的问题 - 天蓝蓝 (147 bytes) 2005-8-13, 22:40:58
        
        且，我说的是现实世界，你跟我讲未来世界，还跑来骂我。 - bluesea (228 bytes) 2005-8-13, 22:50:02
        
        I see, you wasn't the one saying breaking 128bit long key in streaming - steven (8 bytes) 2005-8-14, 01:25:52
这互联网给国内创造了多少ＧＤＰ哪 - xj (228 bytes) 2005-8-13, 15:20:29
- 其实这样也很好玩 - bluesea (242 bytes) 2005-8-13, 15:34:09
  - 你搞死人了。偶平生最恨的就是那些民运垃圾 - xj (206 bytes) 2005-8-13, 15:46:43
不确。最常见的过滤是网页或电子邮件的内容进行自动识别后自动加以封锁 - 方舟子 (552 bytes) 2005-8-13, 14:55:45
- 如果出现如下错误，表明某封来信含有敏感词，无法下载 - 方舟子 (536 bytes) 2005-8-13, 15:11:20
  - have you tried PGP encrypted text? - steven (0 bytes) 2005-8-13, 19:40:27
- 看来我太孤陋寡闻、低估其技术水平了 - Yush (0 bytes) 2005-8-13, 15:00:01
  - 除了识别敏感词，还识别网页中的链接 - 方舟子 (175 bytes) 2005-8-13, 15:07:00
    - 今天可以从大陆登录论坛，很奇怪。 - 壁花 (50 bytes) 2005-8-14, 18:23:00
做了个实验，对那些技术迷信的家伙们一击敲脑袋 - bluesea (302 bytes) 2005-8-13, 14:49:06
- 他们可能还未开始检查rar文件。zip则不行，不信试试。 - 方舟子 (0 bytes) 2005-8-13, 14:58:29
  - 确实，你一说我就去试了。 - bluesea (230 bytes) 2005-8-13, 15:10:58
- 他们在考虑未来，可以谅解 - Yush (68 bytes) 2005-8-13, 14:56:32
  - 不用再实验了。版主已经回答了 - Yush (0 bytes) 2005-8-13, 14:58:26
请诸位补充、更正 - Yush (0 bytes) 2005-8-13, 14:41:38

加跟贴

所有跟贴·加跟贴·新语丝读书论坛http://www.xys.org/cgi-bin/mainpage.pl