◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.freedns.us)◇◇ (大家都在说清华大学生物系的事,我顺便也插进来说两句) 读清华大学版《生物物理学》时的两个疑问 taoyuanli 近日,由于所学专业之需而拜读了由赵南明\周海梦主编、由高等教育出版 社和施普林格(Springer)出版社于2000年出版的《生物物理学》一书。该书是 16本,全书厚达450页。书中的“前言”中写道: <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 本书是在清华大学生物科学与技术系多年开设生物物理学课程教学 的基础上,由一批教授集体编写而成。全书包括分子生物物理、膜与细 胞生物物理、神经生物物理、理论生物物理和研究生物系统的物理方法 和技术5部分,共25章。 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 既如此,我就把这本书称之为“清华大学版《生物物理学》”好了。本来, 清华大学开设生物物理课程,在全国来说确实是站在前列,那么,这本书就应 该是国内最权威的一本《生物物理学》的教材了吧? 我通读该书之后,觉得这本书中确实有不少章节写得很清楚,内容很丰富。 当然,很多内容很明显是从外文资料翻译过来的(有些作者对此作了说明,有 些作者没有说明),有些语句读起来比较费解。这还算是比较常见的现象。但 是读书中的第11章“生物信息数据库”的时候,产生了两个疑问,让我觉得很 奇特,所以写下来,希望有人能给解答这些疑问。 第一个疑问在于11.1节“GenBank基因序列数据库”中“剖析 GenBank Flatfile”这一小节。下面照抄(全盘照抄,一字未改)该书p211-p214页的部 分内容,它在解释 BenBank Flatfile 文件的格式: p211-p212 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 11.3.1 头部 头部是记录中与数据库关联最大的部分。各个数据库并不一定在这一部分包 含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间 保证信息兼容。 所有的GenBank Flatfile开始于LOCUS行: * * * * * * * * * * * * * * * * * * * * * 这一行中的第一项是LOCUS名称。这一成分开始于一个英文字母,总长度不 能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。经典 的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒。 * * * * * * * * * * * * * * * * * * * * * * 下一行是序列长度, 从一到350000bp。在实践中BenBank 和其他数据库很少 接受50bp以下的记录。所以一般不鼓励次PCR引物(24bp)作为序列提交给数据 库。350kb限制是一个经验值,各个数据库用不同的方法提供更长的重叠群。 * * * * * * * * * * * * * * * * * * * * LOCUS行中的下一项表明生物分子的类型。…… >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> p213 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< …… * * * * * * * * * * * * * * * * * * * * 每个GenBank记录至少要有一篇参考文献。许多情况下有两篇。 * * * * * * * * * * * * * * * * * * * * 在1998年末,又加入了一个新的行,以及其标识符PUBMED,允许指向 PubMed 数据库以及发表者在线全文电子版的链接。 * * * * * * * * * * * * * * * * * * * * GBFF头部的最后一部分是评论。这一部分包括关于整个记录的许多不同的 注释和评论(也称之为“描述部分”),以及致谢等。有许多GenBank记录没有这一 部分,这是可选的。 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 整个的p211-p214的内容与上面这两个引用类似。语句很清楚,但是令我不解 的是:文中那些连串星号“* * * * * * * * * * * * * * * * * * * * ”是什么 意思(这是书中原原本本的样子)? 很明显,这段文字是作者从某篇外文文献翻译过来的。我分析了一下书末列出 的文献,最有可能是从“Benson D A, Boguski M Ss, Lipman DJ, et al. GenBank. Nucl Acids Res, 1997; 25:1-6”中翻译过来的。 (顺便提及这本书的文献排列问题。这么大的一本书,内容覆盖面很宽。按照 一般常理,参考文献,或者“建议进一步阅读的文献”,应该列在每一个章节的后 面,以便读者寻找。但这本书不然:全书所有引用的文献都按字母顺序列在书末, 文献列表中并不写明何处引用,而正文中也并不列出引用文献。读者只能根据文献 名称来猜测是正文中何处引用的。) 我没有找到原始文献,我怀疑,原始文献中与这些连串星号相应的地方应该是 列出了例子,而不应该是这样的连串星号。很可能是翻译者在翻译手稿中随手这样 写,而在编辑、校对时没有改正过来。如果哪位读者能找到那篇原始文献,劳驾查 看一下,解答我这个疑问。 另一个疑问来自第11.5节。下面列出书中第11.5节(p216)中的内容(完全是原 原本本的引用,一字不省,连分行的样式也照抄): <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 11.5 MMDB: NCBI 的分子建模数据库 11.5.1 概述 NCBI 的分子模型数据库 MMDD 是 NCBI Entrez 体系的一部分,其中囊括了由 晶体衍射和核磁共振实验研究得到的所有 PDB 生物分子三维结构。MMDB 是 ASN.1 记录格式,而非 PDB 记录格式的数据库。MMDB 结构与原始的PDB 结构相 比,增加了一些附加信息,包括经程序验证的显性化学图象信息,一致的二级结构 衍生定义,与 MEDLINE 相匹配的引用,基于源自生物实体的蛋白质或核酸链进行 分类的分子匹配。 11.5.2 MMDB 数据库服务 NCBI 的 MMDB 提供了诸如被检验序列的 BLAST 检索,结构-序列匹配,文件 格式转换,编程界面显示等服务。 11.5.3 结构记录文本查询 正如其他三维结构服务那样,MMDB 数据库可利用 WWW Entrez及 Network En trez 进行文本查询。MMDB 亦称为 Entrez Structure 组分。MMDB检索域包含PDB、 MMDB 的 ID编码,源自PDB注释记录的自由文本、作者名及其他著书目录检索域。 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 读者大概要问了:这有什么问题?确实,从语句来看没有什么问题。我的疑问 在于:它的内容太“简明扼要”了。这是全书的一节,包含3个小节。第一行“11.5 MMDB: NCBI的分子建模数据库”是一个节标题(列在目录中),下面有三个小节 标题。请注意:小节“11.5.1 概述”居然比后面两个小节的内容都要多!第二小 节“11.5.2 MMDB数据库服务”居然只有1句话,第三小节“11.5.3 结构记录文本 查询”居然只有3句话。 我读书这么多年,可真是从来没有见过这样的文章结构。所以我对此有疑问。 我实在找不出原始文献,只好这样猜测(也许猜得不对,请原谅):翻译者只把原 始文献的每一小节的前几句话翻译出来了,别的就省了。 当然,翻译者只根据自己对学科的理解而选择文献中的部分内容来翻译是正常 的。问题在于,我确实不相信:作为生物物理学的一个内容,作为一本厚书中的一 节,“MMDB: NCBI的分子建模数据库”可以用这么简单的几句话打发掉(其中的一 个小节可以用1句话打发掉)。 上面的两个疑问都涉及该书第11章。根据“前言”中的说明,第11章-第15章 的作者是孙之荣。根据该书的说明以及新语丝其它帖子所述,这位先生应该是清华 大学生物科学与技术系的教授吧。 (XYS20031221) ◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.freedns.us)◇◇