◇◇新语丝(www.xys.org)(xys.dxiong.com)(groups.yahoo.com/group/xys)◇◇

（原载《牛顿－科学杂志》2002年第4期）

                       “智商”的误区

                          ·方舟子·

    许多生物学家都会同意，人并不是地球上唯一的智能生物。类人猿和海豚也
有一定的智能，不过与人类的智能相比，其实是微不足道的。我们也找不到有其
他的生物像人类一样，智力在生活中占了主宰地位。在进入文明社会以后，人类
的竞争更多地表现为斗智而非斗勇。白痴恐怕是最严重的残疾。既然智力对人类
生活是如此重要，研究其高低强弱就成了一个令人感兴趣的问题。我们很容易区
分白痴和正常人。但是要区分正常人的智力高低，却不是容易的事。聪明和愚蠢
只是定性的判断，而且并非固定不变。有没有可能定量地测定一个人天生的智力？
在大脑被确定为思维器官之后，许多研究者就试图通过测量人脑的大小、形状判
定智力的高低。这在一定程度上并非没有道理。人和类人猿的智力区别，很大程
度上就是由于脑容量的悬殊。人类的进化史，也经常被描述为脑容量不断增加的
历史。但是脑容量的大小，是否也能够适用于现代人的内部？直至19世纪末，仍
有一些科学家对此坚信不疑。

    其中最著名的大概是法国解剖学家、人类学家保罗·白洛嘉（Paul Broca）。
他对人脑研究有重要贡献，发现了人脑的语言运动中枢，被称为“白洛嘉中枢”。
他认为人的智力越高，大脑越大。另一位法国人、心理学家阿弗雷德·比纳
（Alfred Binet）起初也接受这种见解，并决定通过测量证明之。从1898年到
1900年，比纳对几所小学做了调查。他先让教师选出一个班级中最聪明的和最笨
的学生，然后用白洛嘉建议的方法测量这些学生的脑袋大小。在这项研究结束的
时候，比纳不得不改变了看法。聪明学生的平均脑袋大小仅仅比笨学生的大了大
约一毫米，可以忽略不计，而且可能是由于聪明学生的平均身高比笨学生略高的
结果。另外，脑袋大小在学生中差异很大，脑袋最大的和脑袋最小的，都属于笨
学生。比纳还发现了脑袋测量的结果很容易受测量者的偏向的影响，即在认定被
测量者是聪明的时测量结果会下意识地偏大，反之则偏小，这种误差能达到三毫
米，超过了聪明学生和笨学生的平均差异。这三个结果都说明了测量脑袋大小不
是一种测定智力的可靠办法。

    在1904年，比纳被法国教育部要求研究一种办法鉴定那些学习能力有问题、
需要特别辅导的小学生。或者说，要找出一种鉴定学生智力高低的办法。这时候，
比纳已放弃了从大脑形态鉴定智力的努力，而改用测试办法。他发明了一套与
功课的内容没有关系，只测试学生的推理能力的试卷。到1911年比纳去世时，他
共发表了三种智力测试的版本。1905年发表的第一版只是把测试问题按从易到难
排列。在1908年发表的第二版中，比纳把这些问题按“心理年龄”排列。他设想，
对每一个问题，智力正常的小孩要能够回答的话，最少要有多少岁，这个年
龄被当做“心理年龄”。受测试者从为最小的心理年龄设计的问题开始测试，难
度逐渐增加，与受测试者所能回答的最后问题相关的心理年龄就是这个受测试者
的心理年龄。受测试者的心理年龄减去其实际年龄，即是其智力水平。如果心理
年龄低于实际年龄，说明未达到同龄人的学习能力水平，那就需要特别辅导。在
1912年，德国心理学家威廉·斯登（William Stern）认为，将心理年龄除以实际
年龄，更能准确地反映智力水平，“智商”（IQ）由此诞生。

    但是比纳本人很清楚，他发明的这套测试，并不是真正在测量智力，“因为
智力的好坏是不能叠加的，因此不能像测量线性表面那样地测量。”换言之，智
力是一种极其复杂的、多样化的现象，不能简单地以一个数字来表示。而且，比
纳也很清楚，这套测试所设定的所谓“心理年龄”，只是许多测试者的平均结果，
并不代表一个真正的实在。在去世的那一年，他警告说：如果根据测试结果说一
个八岁小孩有七岁或九岁的智力，那只是一种简单化的、主观的说法，容易引起
误解，导致其智力测试是真正在测量智力的幻觉。总之，比纳测试只是一种实用
性的测试，目的是为了发现学习能力有问题的儿童，并不是真正在测量智力，也
不用于对正常儿童划分智力等级。那些被发现学习能力有问题的儿童，也不一定
是天生如此、不可改变，通过特殊的训练有可能提高其能力。

    比纳所担心的，恰恰在美国出现。在1910年，一个叫戈达德（H.H.Goddard）
的美国心理学家将比纳测试译成英文，引进美国，但为它找到了一个全新的、经
久不衰的用途。在当时，心理学上把精神发育迟滞分成两种：心理年龄不到三岁，
不具有完备的语言能力的被称为白痴，心理年龄在三岁到七岁之间，有语言能力
但没有阅读、书写能力的被称为痴愚。戈达德认为，在痴愚和正常人之间，还应
该存在一个心理年龄在八到十二岁的等级，他称之为愚鲁。愚鲁的人能够学会阅
读、书写，但是其能力永远达不到正常人的水平。在戈达德看来，愚鲁对社会的
危害更大，许多犯罪分子，绝大多数酗酒者和妓女，甚至不适应社会的人，全都
是愚鲁者。我们很容易识别白痴和痴愚，他们一般没有生殖能力或无生殖的兴趣，
有兴趣的话也难以有机会，因此其劣质基因难以遗传。但是愚鲁在表面上难以与
正常人区别开来，他们有正常的生殖能力，甚至生殖力旺盛，其劣质基因将会遗
传下去、扩散开去。如何鉴别愚鲁者并防止其生殖，是当时“优生学”运动的主
要目标。戈达德认为，比纳测试就是鉴定愚鲁者的一个好办法。

    这完全背叛了比纳的初衷。戈达德认为比纳测试是真正地测试智力，而且是
先天的、遗传而来的、不可改变的智力。今天我们已认识到，有许多因素可以导
致精神发育迟滞，例如孕期生病、滥用药物，胎儿、婴儿营养不良，大脑受到外
伤，等等，当然也有的是遗传病。人体的任何主要性状，都是许多基因彼此相互
作用、基因与环境相互作用以及偶然因素的影响的结果。然而，戈达德却把所有
的精神发育迟滞全都归为遗传引起的。他甚至认为智力就像孟德尔豌豆的颜色、
性状一样，是由一对等位基因决定的，一个来自父亲，一个来自母亲。那些没有
正常的智力基因而只有与之等位的“隐性的”精神迟滞基因的，就会是愚鲁、痴
愚、白痴。那些只有一个正常的智力基因的，则是只适于干粗活的笨蛋。如果智
力障碍真的是由一个基因决定的，那么就有一个简单的办法将其消灭：禁止智力
障碍者生育。如果愚鲁者能够为了人类的幸福未来而自觉地控制自己的性欲，那
么我们还可以允许他们自由地生活。但是愚蠢必然导致不道德，愚鲁者是不可能
自觉地放弃自己的生殖权利的，因此必须采取强制措施。戈达德并不反对对愚鲁
者实施绝育手术，但是他认为把他们像精神病人一样关起来与社会隔离，是个更
容易被接受的做法。

    同时，美国做为一个移民国家，还面临着一个外来的威胁：外国的愚鲁者正
蜂拥而来，必须把他们挡在国门之外。这显然要比隔离美国本地的愚鲁者更容易
做到。在1912年，戈达德及其助手到了纽约埃利斯岛，用比纳测试测定申请移民
者的智力。结果令人吃惊：83％的犹太人，80％的匈牙利人，79％的意大利人和
87％的俄国人的心理年龄都低于十二岁，也即属于低能。难道这些民族的五分之
四的人口居然都精神发育不全？连戈达德本人都不敢相信，对测试结果进行了修
正，使移民申请者中低能的比例降到了40％到50％。但是这个比例仍然高得离谱。
原因本来不难设想，这些受测试者绝大多数是穷人，从未上过学，有的甚至从未
握过笔，一句英语不懂，在经过长途海上颠簸之后，疲顿不堪，精神紧张，惶恐
不安地立即接受智商测试，怎么能指望他们发挥正常水平？但是戈达德却排除了
这些环境因素，而把测试结果不佳归于先天的愚蠢，认定这些新移民的确有令人
惊讶的低等智力，而愚鲁者比例奇高的原因，是因为移民的质量在下降，外国高
智商者倾向于留在本国，而低智商者倾向于移民美国。因此，严格把好移民关就
成了当务之急。戈达德非常自豪地报道说，在那些相信可以用智商测试检测低能
外国人的美国医生的不懈努力下，在1913年，由于智力不健全而被驱逐的移民增
加了350％，在1914年则比前五年的平均人数增加了570％。

    到了1928年，戈达德改变了看法，承认那些比纳测试的心理年龄低于十二岁
者，只有一小部分是真正的低能，而即使是愚鲁，也能通过教育和训练使他们过
上正常的社会生活，而不必加以隔离。至此，戈达德的立场与比纳的立场已没有
什么区别。但是在这时候，比纳测试被做为测试天生智力的方法，早已在美国流
传开去。这得归功于另一位心理学家、斯坦福大学教授路易斯·特曼（Lewis M.
Terman）。1911年比纳测试的最后版本包括54道题，只测试到十六岁水平。特曼
在1916年对比纳测试做了扩展，包括90道题，测试到“超级成人”水平。特曼将
每个年龄的儿童平均得分设为100（即心理年龄等于实际年龄），允许有15分的
偏差。他把这个测试称为斯坦福－比纳测试。和戈达德一样，特曼认为低能是社
会败坏的根源，“并非所有的犯罪分子都是低能者，但是所有的低能者都至少是
可能的犯罪分子。谁都难以否认，每一个低能的妇女都是可能的妓女。道德判断，
就像商业判断、社会判断或其他任何高等层次的思维品质，是智力的功能。如果
智力滞留在幼稚状态，道德不可能开花结果。”特曼认为智商高低决定了在社会
上的成功与否，一个理想的社会是根据每个人的智商进行分工的社会，智商低于
75只适合于干粗活，75－85只适于干半技术活，“智商高于85者当理发师，可能
是一种严重的浪费”，而要在社会上成功，可能需要有115或120以上的智商。
因此特曼希望能测定社会上每个人的智商，由此有了另一个创新：使智力测试大
众化、商业化。比纳测试必须由经过训练的人员主持，每次只能对一个儿童进行
测试，因此不可能大规模地进行。但是特曼却希望每个人都接受斯坦福－比纳测
试，为测试提供了标准答案，因此任何人都可以主持测试、评定结果。一个儿童
在经过五次30分钟的测试后，就被测定了智商高低，该结果可能影响其一生。智
商测试很快成为了一个产值数百万美元的大工业，各种各样的版本被发明、推销，
而所有这些版本都以斯坦福－比纳测试为依据。斯坦福－比纳测试成了以后所有
智商测试的标准，一直被使用到现在。

    但是从一开始，“智商”学派就在学术界遭到了批评，这些批评至今也没有
平息，而智商学派几十年来也未能充分地回应这些批评。智商学派声称智力测试
与文化背景、学习内容无关，测试的是抽象的推理能力。但是他们提供的某些问
题和标准答案，显然是在测试对一个特定的文化中的社会规范的理解程度。例如
在斯坦福－比纳测试中，有一道题是：“我的邻居来了三个不寻常的访问者，先
是一位医生到他家，然后是一位律师，然后是一位牧师。你认为那里发生了什么
事？”特曼提供的标准答案是“死亡”：医生做最后抢救和死亡鉴定，律师草拟
遗嘱，牧师接受临终忏悔。显然，一个不了解西方临终习俗的人，很难做出正确
的回答，将会被认为“愚蠢”。即使是在西方国家生活智力正常的人，也不一定
会按标准答案回答。特曼只对一名他称为“有觉悟的年轻优生学者”的男孩的非
标准答案破例接受（这名男孩回答说是“结婚”：医生来查看未婚夫妻是否适合
结婚，律师草拟婚约，牧师主持婚礼），但是对其他答案一概认为是错误的，最
常见的错误答案是“离婚后再婚”，至于其他虽然合理但是太简单的答案像“聚
餐”、“娱乐”都不被允许，过于复杂的、富有创造性和想象力的答案（比如
“某人病危，在临死前结婚和立遗嘱”）也被认为是不可接受的。

    难道创造性和想象力不被算是智力？这正是智商学派遭受到的批评中最致命
的一点：什么是智力？智力是极其复杂的现象，不论是从科学的角度还是从社会
的角度，都没有人能对智力下一个能被学术界公认的、恰当的定义，更没有人能
够提出一个关于智力的理论解释极其多样的与智力有关的种种现象。有些人有很
强的分析、推理能力，却缺乏想象力；有些人数学能力很差，但是语言能力很强；
有些人言语迟钝，但是思维反应敏捷；有些人学习能力不强，但是却善于处理社
会关系……如何能够客观地判定这些具有不同的能力的人的智力高低？又如何能
够对具有丰富的内容的智力做线性的数量排列？许多学者把智力定义为学习能力，
但是学什么呢？数学、语言、图像识别、音乐、绘画、处理人际关系还是野外生
存能力？智商测试以及当代其他学习能力测试所测量的，只是数学、推理和语汇
能力，这最多只能说是智力的一小部分。但是智商学派却认为智商测定的是正常
人必有的普遍智力。在20世纪初，英国统计学家斯皮尔曼（Charles Spearman）
为了分析智力测试的结果，发明了因子分析法。他发现，人们在回答不同的智力
测试时，其得分具有相关性，即在某一套智力测试得分高的人，在另一套智力测
试中也倾向于得分高，反之亦然。这些不同的智力测试的结果是不是存在一个共
同因子呢？他用因子分析法进行分析，发现的确存在一个相关因子，他称之为g，
代表普遍智力。由于他已认定人的智力具有天生的“普遍因素”，便认为这个抽
象的g真的是测量了普遍智力。但是我们知道，机理未明的相关性很可能是没有
意义的，由此而得的因子也不过是个抽象的、很可能同样没有具体意义的符号，
它可能反映的是环境因素（某些人在各种智力测试中得分高，是因为有良好的营
养、家庭、教育），可能反映的是遗传因素（某些人在各种智力测试中得分高，
是因为他们天生就聪明），可能反映的是环境因素和遗传因素的共同作用，当然
可能什么也反映不了。

    但是智商学派却认定他们测定的是受遗传因素决定的、天生的、不可改变的
普遍智力。在40年代，美国社会学家史密特（Bernadine Schmidt）决定验证这
个说法。他在芝加哥选定了254名来自社会底层的12到14岁少年做为研究对象。
这些少年都被认为低能，平均智商只有52。史密特对这些少年进行了三年的强化
训练，包括培养他们良好的学习习惯、生活作风、学术基本技能等。三年后重新
对他们进行智商测试，发现他们的平均智商增加到72，整整长了20分。五年后，
史密特对他们再次做了测试，发现其平均智商继续增加，达到了89，进入了正常
人范围，而且有四分之一的人的智商增长在50分以上。这个实验已说明了智商的
高低并不是不可改变的，也就不可能完全由遗传因素决定，而与后天的教育有关。
那么智商在多大程度上是与遗传因素有关的呢？在遗传学上，用遗传率来表示某
项性状受遗传影响的程度。这是一个在0和1之间的数字。如果不同个体的性状差
异完全是由于基因差异引起的，遗传率为1；如果完全是由环境因素导致的，则
遗传率为0。研究孪生子的性状异同，是确定遗传率的一个好办法。一对同卵孪
生子的基因组是完全相同的，如果他们从小被分开、在不同的家庭长大，那么他
们某个性状的相似程度，就被认为代表着该性状受基因影响的程度。30多项孪生
子研究（合计包括一万多对孪生子）的结果表明，智商的遗传率大约是0.5。但
是这样得到的遗传率事实上指的是先天因素，而先天因素并不完全是由基因决定
的，出生前母亲体内环境也会对一个人的先天状况有重要影响。由于孪生子是同
时在同一个子宫发育的，他们共同的先天因素并不仅仅包括相同的基因的影响，
还包括相同的母体环境。在考虑了孕期母体环境因素后，智商的遗传率只有大约
0.34。

    可见环境和随机因素对智商高低的影响其实是更加重要的。即使是受遗传因
素影响的那部分，也只是个统计结果，究竟有多少基因、什么样的基因参与其中，
作用机理如何，我们都一无所知。近来英国和美国联合开展了一项研究，试图寻
找影响智商的基因。研究者将数百名实验对象按其智商高、中、低分成几组，并
提取其DNA加以分析。研究者选定了大约90种与神经功能有关的基因加以比较，
看其中是否有与智商差异有关的。至今他们还没有找到任何与智商高低相关的基
因。如果有一天他们发现了某个基因的差异与智商的高低相关，我们是否可以说
这就是智商基因甚至是智力基因呢？不能。打一个比方，如果蓄电池坏了，就能
影响汽车发动机的起动，但是我们并不能说蓄电池是发动机的“基因”，它甚至
算不上是发动机的一部分。同样，任何能影响神经元的构造、功能、代谢和营养
的基因，都有可能影响人的智力活动，并成为影响智商的基因。有的这类基因与
智力活动并无直接的关系。例如，有极少数人，大约在三、四十岁就会得阿兹海
默症（老年痴呆症），他们如果做智商测验，无疑得分会很低。他们得病的原因，
是某个基因（例如app基因）发生突变，生产异常的淀粉状蛋白。这些淀粉状蛋
白在大脑中沉积下来，就会抑制周围的神经元的功能，从而导致痴呆症。显然，
任何能够引起整个神经元功能失常或死亡的基因都能导致智力缺陷，但是这些基
因本身的正常功能不太可能与智力活动有任何的关系。

    要而言之，智力是一种极其复杂的、多样的现象，不可能做定量的线性测量。
并不存在一种可以比较正常人的智力高低的“普遍智力”。所谓智商测试，测量
的不过是数学、推理、语汇方面的学习能力。智商测试在学校教育中有其应用价
值，但不宜夸大其作用，更不能产生它是在测量智力的误解。智商的高低并非真
正反映智力的高低。智商并不是完全由遗传因素决定、不可改变的，环境因素的
影响可能更为重要。影响智力的遗传因素是极其复杂、多样的。遗传性的智力迟
滞往往是由于与智力活动没有关联的基因突变导致的。任何能够影响神经系统的
活动的基因都有可能影响智力活动。找到某个特定的“智力基因”的可能性，可
以说为零。

2002.3.18.

◇◇新语丝(www.xys.org)(xys.dxiong.com)(groups.yahoo.com/group/xys)◇◇