【新语丝电子文库(www.xys.org)(www.xys2.org)】 ———————————————— (原载《环球》杂志2001年第6期) 人类基因组草图究竟告诉了我们什么? ·方舟子· 去年六月份,“人类基因组计划”和其竞争对手赛里拉公司联合公布了 一个人体基因组的“工作草图”,这一事件表明两个竞争组织化干戈为玉帛, 有政治意义,但其本身并无多大的学术意义,然而一些机构在评选2000年十 大科技新闻时,都把它列为头条。今年二月份,这两个组织又同时分别在 《自然》和《科学》杂志上发布了人体基因组的草图和初步分析结果,比起 去年的“工作草图”,这个新发布的草图和分析结果的学术意义要重大得多, 不知明年评选2001年十大科技新闻时,是否会再次成为头条?公众的反应, 却已经不象去年那么热烈了。新闻媒体在去年欢呼过“人类的遗传奥秘被破 解”,这一次又再欢呼了一次。等明年或后年人体基因组序列全部测定, “人类基因组计划”完成的时候,恐怕还得把相同的词儿再用一次,让公众 们越发疑惑,人体的遗传奥秘究竟要被破解多少次?人体基因组的草图又究 竟告诉了我们什么?有一点是可以肯定的:人体基因组图谱本身能够告诉我 们的生命信息很少。得到了它,绝对不意味着破解了遗传奥秘或生命秘密。 人类基因组是人体全部DNA(脱氧核糖核酸)序列的总称,包含了人体的 所有遗传信息。它经常被比喻为一部用A,T,G,C四种字母书写的生命之书。 “人体基因组计划”的目的,就是要把这本书所包含的字母按其书写顺序全 都抄下来。现在公布的这份草图,大约包含了这本书的90%,因此可以对这 本书的全貌做一个分析,比如总共有多少个字母,多少个有意义的段落(即 基因),与其他书(其他生物的基因组序列)的相似性如何,等等。但是, 抄下了这本天书并不等于就能读懂它,对这本书的具体内容,里面的具体段 落都是什么意思,我们知道得很少。 对这本书的初步分析结果,并没有发现多少新的东西,只不过使以前的 一些估计更为准确了。对一般公众来说,值得注意的大概是这几点: 这本书由多少个字母组成?组成生命之书的字母叫碱基对,人类基因组 由32亿个碱基对组成。这是以前用别的方法就已估计出来的。 这本书包括了多少个有意义的段落?这些有意义的段落我们称之为基因 (主要是编码蛋白质,少部分编码有功能的核糖核酸即RNA)。以前用别的 方法估计人体的基因数目在2万到8万左右,一般取个概数称之为10万。现在 通过分析人类基因组序列,发现下限较准确,人体基因数目估计在3万到4万 之间,虽然比以前大多数人估计的要少,但也在同一个数量级,并不意外。 我们已发现的人体基因有1万多个,剩下的2到3万个基因数是根据DNA序列推 测的。但是我们目前无法准确地根据DNA序列判断它是不是基因,所以这个 数目并不确切。确切的总基因数可能要过很多年才能知道。 我们以前就已知道这本书的绝大部分段落都是没有意义的,一般的说法 是90%以上是“垃圾”。现在可以较确切地知道,只有1.1%到1.4%是编码基 因的,有意义的段落所占的部分比预计的还要少。那些无意义的“垃圾”有 时也被称为寄生或自私DNA,现在的分析表明人体中这些寄生DNA的起源都很 古老,是远古时候遗留下来的DNA“化石”。 在此之前,已有酵母菌、线虫、果蝇的基因组被测定。人类基因组与它 们的比较结果又是如何呢?结果可以说非常相似。人体的基因数目只是线虫 或果蝇的两倍。在已发现的人体蛋白质亚单位(蛋白质通常由几个亚单位组 成)中,90%以上能在果蝇和线虫中发现,虽然这些亚单位在人体中组合成 了更多的蛋白质。在人体1278种蛋白质家族中,只有94种是脊椎动物所独有 的。我们的基因绝大多数已有了漫长的进化史,那些参与最基本的细胞功能 的部分,从单细胞的细菌和酵母菌的时代起就已出现,并一直被保留下来。 从基因组的水平上看,生物的进化要保守得多。有趣的是,通过分析人类基 因组发现,脊椎动物中还有一小部分基因与细菌的相似,在果蝇和线虫中却 找不到,表明这些基因并不是从细菌的基因进化来的,而是在脊椎动物出现 后,被细菌直接加进去的。也就是说,脊椎动物和细菌还有过基因交流。 以上这些都只是粗略的估计,不可能准确,因为现在得到的只是一个初 步序列而已,里面还有空白、间断和错误。所以“人类基因组计划”的下一 步工作,就是继续测序,填补空白、拼接间断和纠正错误,以得到一个尽量 准确的序列,也就是所谓完全图。这项工作预计在2003年之前完成。同时, 还要完成重要生物的基因组测定,比如小鼠、黑猩猩。有越多的生物的基因 组被测定,将人类基因组与之比较,就越能明白人类基因的进化史和功能。 我们还要知道,人类基因组并不是只有一种,而是有无数种。除了同卵 孪生子,没有两个人的基因组是相同的。平均来说,任意两个人,其基因组 序列大约有千分之一的差异,即有3百20万个位点的序列不同(称之为单个 核苷酸多态,或简称SNP)。人类遗传的多样性就是由于SNP引起的,因此寻 找、研究SNP,对人类遗传学和医学有极其重大的意义。现在已发现的SNP有 1百40万个,但实际的SNP无疑远远多于此数。 前面已说过,抄下了一部天书并不等于就读懂了它。获得人类基因组这 部天书是相对容易的事,破译它则是更为艰巨的任务,还需要几代人、十几 代人的努力。人体的基因数目并不比低等生物多多少,为什么能形成如此复 杂的形态结构、生理和行为?人体基因平均来说要比低等生物编码更多种的 蛋白质,但这也远远不足以解释人体的复杂性,主要的,恐怕是由于其他更 微妙的因素,比如对基因的调控,蛋白质之间的相互反应,等等。对这些我 们还知道得非常少。要了解人体遗传的奥秘,还必须具体地了解每一个基因 的功能和彼此之间的联系。要弄清楚3到4万个基因的具体功能和相互联系, 几乎是永远也完不成的工作。 了解人体遗传奥秘的最终目的,是为了造福人类,特别是用于医疗。比 如,通过研究SNP能使我们了解许多疾病的遗传基础,以及我们对药物的不 同的反应,因此医药公司可以有针对性地制造新药。这也是一项有望获得巨 额利润的应用。这就是为什么基因组的研究引起了金融、工业界的广泛关注。 但是,要实现这个前景还需要相当长的时间。短期内能够实现的,是通过基 因检测而提前诊断某些可能发生的疾病。对绝大多数疾病来说,这种诊断结 果所提供的只是疾病发生的可能性,而不是必然性。而且诊断是一回事,能 否治愈是另一回事。因此,这种诊断是否必要,是很值得讨论的。国内某位 “基因专家”声称通过基因组研究,以后人们一出生就会得到一张鉴定书预 测什么时候会得什么病,不过是自欺欺人的幻想。 我们还是不要急着宣布“人类的遗传奥秘被破解”。我们现在只是得到 了人类基因组的初步序列。要较为全面、彻底地读懂这个序列还需要相当长 的时间。从读懂它到应用它需要更长的时间。更大的挑战还摆在前方。 2001.2.19. ———————————————— 【新语丝电子文库(www.xys.org)(www.xys2.org)】