【新语丝电子文库(www.xys.org)(www.xys2.org)】 ———————————————— (原载《自然辩证法研究》2002年1期。因为参考文献按规定不能超过10篇,所以 有关分子遗传学的研究文献均未注) 基因之为理论建构和物质实体 ·方舟子· 【摘要】基因做为遗传学上最重要的概念,最初只是一个假想的理论建构。经典遗 传学和分子遗传学的研究为基因找到了物质基础。正当基因被普遍视为确定的物质 实体的时候,分子遗传学的新进展却揭示了基因在结构和功能上的无比多样性,使 得对基因的定义成为一大难题。基因仍然只能被视为是为生物学研究需要而产生的 理论建构。 我在1999年一篇展望文章中曾经预测,21世纪将会是一个“基因化”的世纪。 随着生物技术的应用日益广泛,“基因”现在已成为家喻户晓的一个名词,进入了 日常词汇。“基因”一语在日常使用中的含义显然不会与学术上的含义一致,人们 在使用它时也往往不明了其确切的意思。事实上,即使在学术界,生物学家和生物 哲学家们目前对基因的定义也未能达成共识,争论不休,在2000年还出了本探讨基 因概念的论文集(P.J.Beurton et al (ed.), 2000)。对基因这一概念的历史演 变和现状,已有过详细的综述(P. Portin, 1993)。这里我们只对基因概念在理 论建构(theoretical construct)和物质实体(material entity)两方面的演变, 做一评价。 遗传学的历史可以追溯到孟德尔在1865年发表的论文。但是孟德尔并未明确区 分表现型和基因型,他用A和a表示的是单位性状(Merkmale),所以对纯合体,他 只以A或a,而不是后来的AA或aa表示。在论文的结论部分,他试图推测遗传的机理 时,有10次提到了生殖细胞中的“因子”(Elemente),用法与后来的“基因”相 近,但也只是假想中的泛泛而论。孟德尔定律在1900年被“重新发现”以后,将遗 传单位与单位性状混为一谈的局面并未改变,直到1909年丹麦遗传学家约翰生(W. Johannsen)才首次明确区分了表现型和基因型,并为基因型定下了一个单位-- 基因。对约翰生而言,基因只是一个计量单位,是根据测量结果推导出来的存在于 配子和合子中的“某种东西”(Etwas)。在约翰生看来,在当时没有可能说明基 因的物理化学属性,也没必要对此进行猜测。对他来说,基因不过是个假想的抽象 概念,而不是真实的存在。甚至在他看来,基因型也只是类似于亚里士多德所说的 “类型”的理论建构,可通过推导而得,但不能将它当成真实的实体(N.Roll-Hansen, 1978)。 经典遗传学家不管是否相信基因是真实的实体,他们都只能首先把基因视做理 论建构。他们无法看到基因,而只能通过研究性状的传代而推导细胞中的这个“某 种东西”。在实际研究中,遗传互补是推导基因的主要方法:同一基因的突变形态 通常不能互补,而不同基因的突变形态虽然也能影响同一性状,通常能够互补(将 突变a和突变b交配,如果杂合子a/b的表现型是突变型,则两个突变不互补,是同 一基因的不同等位基因;如果杂合子a/b的表现型是野生型,即能够互补,是不同 基因的突变型,即a+/+b)。正因为基因在此时只是个理论建构,所以它根据需要 被赋予了不同的角色。当基因被用于解释亲代的性状在子代的重新组合时,它是重 组单位;用于解释崭新的性状时,它是突变单位;同时它又被认为将在生物体的发 育过程中表现出某种功能,也就是功能单位。即使在染色体被确认为遗传的载体, 甚至可以在染色体上绘出基因图谱之后,基因究竟是染色体上一个个分立的颗粒, 还是只是假想的人为划分的单位,也还是个悬而未决的问题。迟至1933年,摩尔根 在接受诺贝尔奖的演说中,还如此说: “现在我们将(基因)置于染色体上,那么我们是否恰当地认为它们是物质单 位;是比分子更高层次的化学物体?坦率地说,从事实际工作的遗传学家们自身对 这些问题并不怎么在乎,除了有时会猜测一下这些推导而得的因子的属性。在遗传 学家当中,对基因是什么——它们是真实的还是纯粹虚构的——并无统一的意见, 因为在遗传实验的水平上,不管基因是假想的单位,还是一种物质颗粒,并不会造 成最轻微的差异。” 只有性状的差异才能在遗传实验中中被研究,因此经典遗传学家们所推导而得 的基因,事实上是影响了性状差异的基因。一开始他们很自然地假定一种性状对应 一种基因,但很快就发现这只属于少见的理想情况。一种性状(例如人的身高)往 往受多种基因的影响,而一种基因又往往影响了多种性状(例如果蝇的眼睛颜色和 受精囊的形状受同一个等位基因的影响)。还有一些基因,其作用受到其他基因的 影响。总之,基因和性状的关系,不是一对一的关系,而是多对多的关系。即使是 同一个基因座位上两个等位基因的相互关系,也比当初孟德尔所设想的显性与隐性 关系复杂。有时杂合体只是亲代双方的性状的融合,即半显性;有时同时显示亲代 双方的性状,即共显性;有时则表现出比纯合体还要强烈的性状,即过显性。对同 时决定多种性状的一个基因而言,在某个场合是显性,在另外的场合则是隐性。无 疑,这使得理论建构变得困难,或许需要把基因当成物质实体,从了解它的物理化 学属性入手,才能摆脱这个困境。在这个问题上,摩尔根是骑墙派,但是他的学生、 诱发突变的发现者缪勒(H.J.Muller)则是认定基因是物质实体的最早也是最主要的 鼓吹者之一。从1916年开始,缪勒就开始估计基因组所包含的基因数目和基因的大 小。在缪勒看来,虽然基因只能根据其作用而推导其存在,但这是技术上的困难, 并不能否认基因的真实存在。基因乃是细胞中的“独特的物质”,是染色体上的“ 超显微的颗粒”;做为遗传的“原子”,基因物质具有三方面的性质:“自催化” 或自我复制;“异催化”,即能够制造影响生物体的发育和生理的产物;以及能够 突变并复制新的形态(Muller, 1922; 1947)。基因并不是由性状决定(推导)的, 恰恰相反,基因是决定性状的。 缪勒的这种观念,对遗传学的研究有深刻的影响。在1940年代,基因的物质概 念已被普遍接受。正是由于相信每一个基因都决定了一个主要的功能,比德尔 (G.W.Beadle)和塔特姆(E.L.Tatum)在对红色面包霉的研究基础上,提出了“一 个基因一个酶”假说。在这个假说的指导下,又可以分析基因的“精细结构”,发 现基因并非不可分割的原子,其功能、重组和突变并不属于同一个单位。基因的三 重角色开始被分离开来,由本泽(S.Benzer)在1957年提出顺反子学说,另立三个 不同的基本单位:做为功能单位的顺反子以及更小的重组子和突变子。在基因的化 学结构被阐明之后,重组子和突变子被发现是单个的核苷酸,这两个术语因此被抛 弃了。一个顺反子则被视为即是一个基因,顺反试验代替遗传互补试验,成了鉴定 基因的主要方法(为检验突变a和b是否属于同一个基因,比较顺式杂合体ab/++和反 式杂合体a+/+b。如果二者的表现型类似(一般是野生型),则突变位于不同的基因; 如果表现型不同,反式杂合体通常是突变型,顺式杂合体通常是野生型,两个突变 位于同一个基因)。 但是顺反子试验仍然是一种根据性状推导基因的方法,其研究前提是把基因认 定为物质实体,而其研究方法却仍然是对基因的建构。DNA的双螺旋结构的发现, 似乎为消除这种研究前提和方法的分离提供了可能。沃森(J.Watson)和克里克(F. Crick)在其1953年阐明DNA双螺旋结构的论文中,已明确提及了其模型可以解释缪 勒所赋予基因的两个特征:自我复制和突变并保留突变。基因的第三个角色,即功 能机制(编码蛋白质)不久之后也由克里克提出。分子遗传学的研究却推翻了基因 做为遗传的结构单位(或遗传“原子”)的地位。染色体是由连续不断的核苷酸组 成,做为一个单位复制,并没有标记将它分割成一个个明确的基因。遗传的结构单 位不是基因,而是核苷酸。但是基因仍然被视为遗传的功能单位,被定义为一个连 续的、分立的、有功能的核苷酸片段。1950-60年代对基因定义的修正,主要体现 在基因“功能”上。起初这个功能被认为只是编码蛋白质,自1958年起人们开始发 现一些蛋白质由两条以上的多肽组成,根据顺反子试验,这些多肽又由不同的基因 编码,于是“一个基因一个酶”学说被修改成了“一个基因一条多肽”。在发现有 些DNA片段并不编码多肽,而是编码功能RNA(核糖体RNA和转移RNA基因)之后,也 只不过把基因的功能再扩大了一下。 在1961年,将基因当做功能单位的看法开始受到了冲击。雅克(F.Jacob) 和莫诺(J.Monod)发现有些DNA片段并不编码任何产物,但是能够调节其他DNA片段 制造产物。似乎并不难再把基因的概念扩展一下,分成编码产物的结构基因和不编 码的调节基因。问题是,调节基因是否应该视为独立的基因?它并没有独立的功能 (或者说没有自己控制的性状),只是对其他基因的功能施加影响,将它视为其他 基因的一部分(启动子)似乎更为恰当。但是启动子通常并不只控制一个结构基因 的转录,而是几个串联的结构基因的转录,合起来被称为操纵子。或许应该把操纵 子视为一个基因?但是它的产物却是几种不同的多肽,应该被视为几个基因。尽管 有这个小插曲,到1960年代末,分子遗传学家们普遍乐观地认为,他们已成功地将 基因还原到了分子水平。虽然还有一些细节需要阐明,基因做为一个物质实体已无 可质疑,遗传学的研究也可以直接从研究基因入手,不需要再从理论上加以建构。 对基因的定义也鲜有异议。 这个蜜月期并没能持续多久。从1960年代开始,不编码但有调节功能的DNA序列 的种类被发现越来越多,也越来越使分子遗传学家们困惑:启动子和终止子序列; 上游序列和下游序列;前导序列和结构基因之间的间隔序列;被转录和不被转录的 区域;被翻译和不被翻译的区域……是否应该把这些序列包括进基因?如果这些序 列紧靠着结构基因,还可以这么划入,但是有的调节序列,如增强子和沉默子,与 结构基因的距离可以远达成千上万个碱基对,它们只是对结构基因进行遥控,将其 归入同一个基因,难以被接受。而且它们也同时控制着多种结构基因。还有高度重 复的序列,它们既不编码也不具有调节功能,对性状没有任何影响。假基因是另一 个令人困惑的例子,它们看上去很象真基因,显然是由真基因进化而来,但是由于 突变而不能被表达。我们是否可以把这些当成基因或基因的一部分?高度重复序列 和假基因看来只是在进化过程中堆积下来的“垃圾DNA”或“寄生DNA”,占据了基 因组的绝大部分。不仅DNA序列不都是基因,而且能被归属于基因的只是一小部分。 在承认了DNA中有一部分并不属于基因之后,我们也可以把“调节基因”从基因中划 分出来,而仅仅视为“调控序列”。 断裂基因的发现使基因的定义面临更大的困难。在真核生物中,编码的DNA序 列并非总是连续不断的,一个基因通常由几段编码序列(外显子)和不编码序列 (内含子)混合而成,内含子部分又往往比外显子长得多。其RNA转录本经过剪接, 去除内含子,而将外显子连接成一个成熟的信使RNA。我们是否应该把这些被去除 的内含子视为基因的一部分?内含子一般并不包含影响性状的信息,类似于“垃圾 DNA”,按理不应该将之视为基因的一部分。但是内含子如果发生了能影响剪接的 突变,却会摧毁了基因的功能,也不能完全无视内含子的存在。即使解决了是否把 内含子包括进基因以保持基因的连续性,我们还需面临着剪接现象的复杂性:在细 胞发育过程中,一个基因的RNA原始转录本可以经过不同的剪接程序,把不同的外 显子连接起来形成不同的信使RNA,从而产生不同的蛋白质异型满足发育的需要。 这表明一个基因并不总是对应一种多肽,而是可以有多种多肽。比这种可变剪接 (alternative splicing)更复杂的是反式剪接(trans-splicing),来自不同基 因的外显子被连接起来形成一条杂交的信使RNA,也就是说,基因和多肽的关系, 成了多种基因片段对应一条多肽的关系。同样打破了基因与多肽的对应关系的还有 多蛋白质基因(polyprotein genes),一个基因编码的多肽,经过酶切之后产生 多种多肽;以及重叠基因,两个基因的序列有一部分重叠,这段共享的序列被阅读 了两次,其产物组成了两种不同蛋白质的一部分。 基因定义所面临的困难并不只这些。我们还可以再举一些例子:一、可移动的 基因。有一些序列(转座子)可在基因组内移动,从而影响其他基因的表达,甚至 改变整个染色体的结构,也就是说,基因在染色体上并不一定有固定的座位。二、 套装基因(nested genes)。在一个基因的内含子中,包含着另一个基因。三、组 装基因(assembled genes)。在发育过程中,不同的DNA序列重新组合形成一个 “成熟”的基因,例如免疫球蛋白的基因就被认为是由可变区、连接区、不变区三 个不同的“小基因”(genelet)在细胞发育时临时组合而成的。四、信使RNA编辑。 RNA的转录本不仅经过了剪接,而且在翻译之前,其核苷酸序列还可以被改变,在 向导RNA和酶的作用下,去除旧的序列,插入新的序列,使得最终得到的信使RNA与 原来的DNA序列不再互补。五、蛋白质修饰和剪接:信使RNA所翻译的多肽有时还经 过修饰,去除某些氨基酸序列,甚至经过了剪接,即翻译产物被酶切成几个片段再 重新组合成一个新的蛋白质。有时候,核糖体还能进行反式翻译(trans-translation), 将两条信使RNA放在一起翻译出一条多肽,也就是说,由两个基因编码一条多肽。 总之,我们对基因的结构和功能了解得越多、越透彻,反而越来越不明白基因 究竟是什么。基因不是有固定位置的(可移动的基因),不是连续的(断裂基因), 不是分立的(重叠基因、套装基因、组装基因),也不具有确定的产物。没有一个 定义可以完整地定义基因,因为与核苷酸、染色体、基因组不同,基因并不是一个 自然的单位。那么我们应该如何对待基因这个概念? 有的人主张抛弃基因这个概念,例如用基因组代替基因(Schwartz, 2000)。 但是这种整体主义的探讨方式基本上只是纸上谈兵。我们并不能总是泛泛地谈论基 因组而不涉及它的组成部分。从总体上研究基因组的结构和功能并不能取代对基因 组的各个组成部分的研究。对基因组的研究也离不开对它的各个组成部分的具体分 析。在基因组和核苷酸之间,我们仍需要保留一个合适的研究单位。布罗希(J. Brosius)和古尔德(S.J.Gould)提出了一个新单位,将具有结构或功能的任何DNA 片段称之为纽恩(nuon)(Brosius & Gould, 1992, 1993)。这个新单位也许在进 化生物学上有其价值,但是对遗传学的研究却没有用处:它抹煞了DNA片段的多样性 和不同程度的重要性(显然,编码序列要比高度重复序列重要得多,虽然它们都是 纽恩)。 既然从遗传学的角度定义基因,似乎已不可能,有人试图改从发育生物学或进 化生物学的角度重新定义基因。纽曼-黑尔德(E.M.Neumann-Held)将基因定义为 在某个发育阶段生产特定蛋白质的过程,它不仅包括DNA序列,也包括细胞内外 所有参与这个生产过程的因素(Neuman-Held, 1998)。按照这个定义,发育过程中 的环境因素也成了基因的一个组成部分,而环境因素是不确定的,基因也就是不确 定的。这样的定义,对具体的研究没有用处。比尔顿(P.J.Beurton)将基因定义为 自然选择的单位,包含了在适应过程中能被自然选择所检测的最小的遗传差异(Beurton, 2000)。这同样只具有思辨的意义,而无法用于指导具体的实验研究。 一个科学概念之所以有价值,是因为它有助于具体的研究。分子遗传学家们仍 然频繁地使用基因一词,它出现于几乎所有的分子遗传学论文中,丝毫也没有将被 摈弃不用的迹象。既然对基因的定义如此困难以致几无可能,在具体研究中又如何 避免误解?事实上,分子遗传学家们在目前所普遍采用的)——虽然很少如此明说—— 是一种最小化的办法:将基因等同于一段完整的编码序列或可读框架(open reading frame), 也就是编码蛋白质或功能RNA的那部分DNA序列。当人类基因组计划宣布人类基因组 只含有大约3-4万个基因时,就是针对编码序列而言的。我们目前并没有办法只根 据DNA序列确定其编码序列(预测的准确率只70%左右),而如前面所述的,编码序 列也并非单一、固定的。所以,对编码序列,最终还是只能通过其表达的产物(多 肽或功能RNA)来确定。不是由基因确定其产物,而是由产物认定基因。基因这个术 语经过了近一世纪的演变,又回到了理论建构的起点,不同的是,它已有了无可质 疑的物质基础。 (2001.5.19定稿) 参考文献: Beurton, P.J. 2000. A unified view of the gene, or how to overcome reductionism. in The Concept of the Gene in Development and Evolution: Historical and Epistemological Perspectives, Cambridge University Press, London. Beurton, P.J., R.Falk & H.Rheinberger (ed.). 2000. The Concept of the Gene in Development and Evolution: Historical and Epistemological Perspectives, Cambridge University Press, London. Brosius, J., and S.J.Golud. 1992. On "genomenclature": A comprehensive (and respectful) taxonomy for pseudogenes and other "junk DNA". Proceedings of the National Academy of Science USA 89, 10706-10710. Brosius, J., and S.J.Golud. 1993. Molecular constructivity. Nature 365, 102. Muller, H.J. 1922. Variation due to change in the individual gene. American Naturalist 56, 32-50. Muller, H.J. 1947. The gene. Proceedings of the Royal Society London. Series B 135, 1-37. Neumann-Held, E.M. 1998. The gene is dead -- long live the gene: Conceptualising the gene the constructionist way. in Sociobiology and Bioeconomics: The Theory of Evolution in Biological and Economic Theory. Springer-Verlag, Berlin. Portin, P. 1993. The concept of the gene: short history and present status, Quarterly Review of Biology 68, 173-223. Roll-Hansen, N. 1978. The genotype theory of Wilhem Johannsen and its relation to plant bleeding and the study of evolution, Centaurus 22, 201-235. Schwartz, S. 2000. The differential concept of the gene. in The Concept of the Gene in Development and Evolution: Historical and Epistemological Perspectives, Cambridge University Press, London. ———————————————— 【新语丝电子文库(www.xys.org)(www.xys2.org)】