◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇

华大基因组测序及其发表文章的一些疑问
                    
作者：基因组爱好者
 
　　前段时间在数据库查询一些野生稻序列，需要找Oryza rufipogon 和 Oryza 
nivara这两种野生稻的基因序列，首先查到一篇文章是Resequencing 50 
accessions of cultivated and wild rice yields markers for identifying 
agronomically important genes，发表于Nat Biotechnol. 2011 Dec 
11;30(1):105-11，这篇文章的通讯作者是中国科学院昆明动物研究所的王文和
华大基因的王俊，但是让人不解的是在NCBI数据库里面根本查不到他们提交的任
何关于这两种野生稻的基因和蛋白质序列。

　　这引起了我的兴趣，后来又发现了王文和王俊为共同通讯作者的另外一篇文
章，也是关于基因组的（Sequencing and automated whole-genome optical 
mapping of the genome of a domestic goat (Capra hircus)，Nat Biotechnol. 
2013 Feb;31(2):135-41），同样也发现他们没有提交任何Capra hircus基因和
蛋白质序列到NCBI。

　　一般来说，基因组文章总是得先提交序列到NCBI等相关的数据库，然后发表
文章，也有的会后提交序列信息，但是对于已经在2011年12月份和2013年2月份
就已经正式发表的文章来说，到现在都没有任何基因序列信息的提交确实很让人
不可理解。何况这两篇文章都是全基因组序列的文章，花了大量的科研经费（至
少得几百万吧），难道花了这么多钱，就发表2篇文章了事，而不给公众任何数
据？这也是实在对不起这么多科研经费吧？

　　那么究竟是什么原因呢？难免会让人猜测，是不是序列数据本身有什么问题
呢？其实以前就听说过华大的基因序列数据的质量常常不敢恭维，怀着试一试的
心理，随便去抽查了华大最近释放的一个关于Tupaia chinensis全基因组序列数
据，真是不查不知道，一查吓一跳，这个全基因组数据错误百出。由于基因组数
据太大，不可能进行全部验证，只能随机抽查，抽查35条序列，结果显示，有
25%左右的序列都有或多或少的错误（部分抽查结果见附件，Sequence ID: 
ELV14235.1， ELW68196.1, ELW63486.1, ELW54969.1, ELW49150.1, ELV09248.1, 
ELW67516.1, ELW48852.1, ELW47487.1）。主要错误如下：

　　(1)将A前体序列和B前体序列混拼接在一起；

　　(2)序列的任何部位可能出现一些莫名其妙的大片段序列（超过50个氨基
酸），这些序列找不到任何相似序列（注：这种现象在基因序列中可能出现，但
是对于树鼩这类与灵长目很接近的物种来说，在很多蛋白质前体序列中出现找不
到任何相似度的大片段序列很难理解）。

　　(3)明显的序列测定错误，如在保守的信号肽前面或者后面出现一些莫名其
妙的大片段序列（超过50个氨基酸），这些序列找不到任何相似序列。

　　(4)同时出现序列测定错误和序列胡乱拼接（混拼）。

　　很巧的是，这篇文章的通讯作者同样的中国科学院昆明动物研究所的姚永刚
和王俊（Nat Commun. 2013;4:1426. Genome of the Chinese tree shrew）。
我同时也很难相信，用这么错误的数据怎么就在这篇文章中得出了Tupaia 
chinensis与灵长类动物很接近这一结论。基因组数据量太多，确实很难证实或
者证伪，这也许就是很多人为了发表文章而疯狂进行基因组测序的原因之一吧。

　　附件: 树鼩基因组序列的部分抽查结果（随机抽查了35条序列，发现了9条
序列有严重错误）

　　以下是从NCBI随机抽查发现的一些有错误的树鼩序列，包括分子量小的多肽，
分子量大的酶，主要错误如下：
　　(1)将A前体序列和B前体序列混拼接在一起；
　　(2)序列的任何部位可能出现一些莫名其妙的大片段序列（超过50个氨基
酸），这些序列找不到任何相似序列（注：这种现象在基因序列中可能出现，但
是对于树鼩这类与灵长目很接近的物种来说，在很多蛋白质前体序列中出现找不
到任何相似度的大片段序列很难理解）。
　　(3)明显的序列测定错误,如在保守的信号肽前面或者后面出现一些莫名其妙
的大片段序列（超过50个氨基酸），这些序列找不到任何相似序列。
　　(4)同时出现序列测定错误和序列胡乱拼接（混拼）。
 
1、Yorkie like protein [Tupaia chinensis] Sequence ID: gb|ELV14235.1| 
MKVLVLLAAIFLVAIQAQADPLPARTEEALDQEQFGAEDQDVPVDFAGEESSALRAAGESMYSGLSMSSCSVPQTPDVFLSSIGEMDMGDTVNQSTLPSQQNHFLDSLDPFLE
前面50个氨基酸是defensin的前体序列，后面是Yorkie序列，明显是拼接错误。
 
2、Anaphase-promoting complex subunit 11 [Tupaia chinensis] Sequence ID: gb|ELW68196.1| 
[1  mkvkikcwng vatwlwvand encgicrmaf ngccpdckvp gddcplvwgq cshcfhmhci
61  lkwlnaqqva aalalc]lllv ppssa_wykpa agpsyysvgr aagllsgfrr saya_rrpelp
121 igagprdpeg afpelrslal cvkevtpnlq scerlpdgrg tlqckadvfl slraadcsst
 
方框部分为Anaphase-promoting complex subunit 11
下划线部分为neuropeptide B
明显是拼接错误，将Anaphase-promoting complex subunit 11和neuropeptide B拼接在一起。
 
3、Orexin [Tupaia chinensis] Sequence ID: gb|ELW54969.1|
1   mslfpttseh ykpqvpgsrs qwtaarfqat rttadifpgc ptlssrhnep slhkgllpll
61  llllllppal lspgaaaqpl pdccrqktcs crlyellhga gnhaagiltl gkrrpgppgl
121 qgrlqrllqa sgnhaagilt mgrragaesa prpcagrrcp vvaatsiapg grsgv
 
正常的Orexin
1   mnpsstkvsw atvtllllll llppallspg aaaqplpdcc rqktcscrly ellhgagnha
61  agiltlgkrr pgppglqgrl qrllqasgnh aagiltmgrr agaepalrpc sgrrcpseaa
121 ssvapggrsg v
 
所有其他物种的Orexin前体都是130个氨基酸左右，序列比对可以明显发现
Tupaia chinensis的前体在信号肽前面莫名其妙地增加了50多个氨基酸序列（方
框部分），这50多个氨基酸序列找不到任何序列相似性，很可能又是序列粗定错
误，而且拼接错误，因为在Tupaia chinensis的前体那儿只出现了部分信号肽序
列（粗体）。
 
4、Appetite-regulating hormone [Tupaia chinensis]  Sequence ID: gb|ELW63486.1|
1   mlsprtical lllsmlwvds aaagssflsp ehqkaqqkke skkppaklqp raaegslppe
61  dgsqaegaee eleiqfntpf dvgiklsgaq fqqhgqalgk flqdilweea egks【ppgsgs
121 rgfhqvpegd phvgntkppp qhltlsfkff aighvclpet erqresekss pgwgrprcnl
181 fsilpeilgm hkyrv】
human
1   mpspgtvcsl lllgmlwldl amagssflsp ehqrvqqrke skkppaklqp ralagwlrpe
61  dggqaegaed elevrfnapf dvgiklsgvq yqqhsqalgk flqdilweea keapadk
所有其他物种的Appetite-regulating hormone前体都是只有110个氨基酸左右的
长度，而Tupaia chinensis的Appetite-regulating hormone前体却含有近200个
氨基酸，很明显，Tupaia chinensis的Appetite-regulating hormone的C-末端
多出的近90个氨基酸（方框粗体部分）是序列测定错误及序列序列拼接错误。而
且这90个氨基酸序列没有任何相似序列，来得很突然。
 
5、Protachykinin-1 [Tupaia chinensis] Sequence ID: gb|ELW49150.1
1   menaqglrsn vrskhpalqg fgfvtcapve mvhavmnarp qgksspnkrw lvlspaqeve
61  vvletsvvie kvvlvvmttl vmeetsvvvv almaaivvvd taevgiaimd lgfprhssvg
121 gdsaegaaae rgpgerfpha naplclppag pgglkksdmk ilvalavffl vssqlfaeei
181 ganddlnyws dwsdsdqike elpepfehll qriarrpkpq qffglmgkrd adssiekqva
241 llkalyvgye rsamqnyerr rk
 
preprotachykinin I [Tupaia belangeri].   
1  mkilvalavf flvssqlfae eiganddlny wsdwsdsdqi keelpepfeh llqriarrpk
61 pqqffglmgk rdaghgqish krhktdsfvg lmgkralnsv ayernamqdy errr
 
以上两条序列比较可知，Tupaia chinensis的Protachykinin-1 在其N-末端明显
多出了将近160个氨基酸，且这段氨基酸找不到任何相似序列，这再次说明出现
测序错误和胡乱拼接。而下划线部分才是真正的Protachykinin-1
 
 
6、Neurokinin-B [Tupaia chinensis] Sequence ID: gb|ELV09248.1| 
MRSTLLFAAVLALSLTQSFGAVCEESEEQVVPSGGHSKKDRDLYQLPPSLLRRLHDSRSVSLEGLLKALSKASIGDMHDFFVGLMGKRNIQTGTEGNQENAPRFGTLKFPPSAE
 
neurokinin-B precursor [Sus scrofa].
1   mrstllfvai lalslawslg aaceesqeql mpggghskkd snlyqlpssl lrrlcdsrsi
61  sldgllkmls kasvgakess lpqkrdmhdf fvglmgkrni qpgtpvdgnq enapslgtfk
121 yppsve 
方框部分序列在所有物种都有，但是在树鼩中没有，很可能测序漏测和拼接错误。
 
7、Angiotensin-converting enzyme [Tupaia chinensis] Sequence ID: gb|ELW67516.1|
实际上，所有的这个酶基本上都是1300多个氨基酸，而树鼩含有2160多个氨基酸
1 mvacpmwpgl rcvpppfppf wcpqeeaall hqefaeawgq kakelfdpiw qnftdptlrr
       61 vidavrtlgp anlplakrqq ynsllntmsk iysttkvcfp nktatcwsld pdltnilass
      121 rnyamllfaw egwhnavgip lkplyenfta lsneaykqdg fsdtgaywrs wydsptfeed
      181 leniyrqlep lylnlhayvr rtlhrqygdr yinlrgpipa hllgnmwaqg wdniydmvvp
      241 fpdkpnldvt simvqkvgar wddgreglrg gvrveaapvq ssslehhkvc prqgrqllap
      301 dlspcsqhqg wnathmfrva eefftslgls pmppefwaes mlekptdgre vvchasawdf
      361 ynrkdfrikq ctqvtmdqls tvhhemghvq yylqykdqpv slrgganpgf heaigdvlal
      421 svstpahlhk igllenvttd rendinyllk malekiaflp fgylvdqwrw gafsgrtpps
      481 rynfdwwylr tkyqglcppv vrnethfdag akfhvpnvtp yiryfvsfvl qfqfhqalck
      541 eaghqgplhh cdiykstqag dklravlqag ssrpwqevlk dmvgsdtlda rplleyfqpn
      601 rrngevlgwp eyqwrpplpn nypegiglcs paamgqggaa pglpslflll lccghlplvp
      661 sqtaphqvtv nqgttsqatt ssqttarqaa ssqiattkrp nlvtneaear kfveeydqvs
      721 qvvwneftea nwnyntnitt enskilnrly lsearaglrg lrapvglrse gctsaaplqp
      781 valsgqycsn hreptflkgl pcagcgssal fvcaastpqa qrgqgayakl ppptgplrhv
      841 lqknmkinnh tlvfgtrarq fdvsnfqnat tqriikklqd leraalpfqe leeynkilmd
      901 mettysvatv chtngtclhl dpdlthlmat srkyedllwv wkswrdkvgr eilpffpkyv
      961 tlankaaqln gytdagdswr avyetpsleq dleqlfqelq plylnlhayv rralhrhygp
     1021 ehinlrgpip ahllgnmwgq twsniydlvv pfpsapslda teamikqgwt prrmfkeadn
     1081 fftslgllpv ppefwnksml ekptdgrevv chasawdfyn gkdfrikqct tvnmedlvva
     1141 hhemghiqyf mqykdlpvil reganpgfhe aigdvlalsv stpkhlhsin llasdgggye
     1201 hdinflmkma ldkiafipfs ylidqwrwrv fdgsitkeny nqewwslrlk yqglcppvpr
     1261 sqgdfdpgak fhipssvpyi ryfvgfitqf qfhealcqaa ghkgplhkcd iyqskeagrl
     1321 ladtlklgss krwpeammlm tgqpnmsasa imnyfkplld wlltgrhgeq lgwpeynwtp
     1381 nsarsessss dggrvnflgm nleaqqarvg qwvllflgva llvltsadsl pscshewpan
     1441 fynesearkf lafyeqtaql vlnqfveatw nyvtnitrtn qenmlhkeve ksqfmmyfgs
     1501 rarlfktaql qdldvkrals klqdidkaal pkdelweynk lladmettys maqvclnegp
     1561 cmslepeled imansrdqke llwawqgwrd avgrlirtsf eryvqlsnkv aqlngyndmg
     1621 alwraryewd tleqdleqlf qelqplylnl hasdleqlfq elqplylnlh ayvrralhrh
     1681 ygpehinlrg pipahllgnm waqswinild lalpfpekpp editkimkaq hwnaekmfee
     1741 aekfftslgl lpvppnfwek smferptdgr evechasawd fyngkdfrik kctevtiedl
     1801 lsifhqmghi qyflqyknls vtfrtganpa feeavgsvit lsasshkhlv frgllshqhq
     1861 dseeevnflm gialdkivfi pfgylmdlfr wkvfdgtihk diynqewwnl klkyqglcpp
     1921 vprseedfdp aakfhisase pymryflslv lqfqihealc tasghvgplh rcdiynskaa
     1981 gelladalkl gsskpwpevl ekltgqsevs tkalmtyfkp llnwlvaenv rqgdilgwpd
     2041 fscsfeeket dkmrflglel epdqassgqw vllvlnlfll lvtlglgfrl yflekqslae
     2101 dsdasitmpk ayflglrmep hlvarrqwmm lglsfilmlc siglairvft qhngkppwmk
     2161 tewwssd
 
angiotensin-converting enzyme [Ovis aries].
1 mseprgkqrg etqlipkeqk egadrlgiip dertkaggss mvrrahmsse pqaaeqeeaa
       61 llsqefseaw gqkakglfdp vwqnftdptl lriigavrtl gpanldlekr qkynsllsnm
      121 sriystakvc fpnktapcws ldpeltnvla ssrsyallly awegwhnaag iplkplyqdf
      181 talsneaykq dgfsdtgayw rswydsptft edlerlyqql eplylnlhay vrralhrryg
      241 dryinlrgpi pahllgnmwa qswenvydmv vpfpdkpnld vtsamvqkgw nathmfrvae
      301 efftslgllp mppefwaesm lekpsdgrev vchasawdfy nrkdfrikqc trvtmdqlst
      361 vhhemghvqy ylqykdqhvs lrrganpgfh eaigdvlals vstpahlhki glldqvtndt
      421 esdinyllkm alekiaflpf gylvdqwrwg vfsgrtppsr ynydwwylrt kyqgicppvv
      481 rnethfdaga kfhvpnvtpy iryfvsfvlq fqfhealcke aghqgplhqc diyqstqaga
      541 klrallqags srpwqevlkd mvgsdnldar pllsyfqpvt qwleeqnqqn gevlgwpeyq
      601 wrpptpdnyp egidlvsdea earkfveeyd rrsqvvwney aeanwnyntn istdnskllm
      661 qknlqmanht vkygtwarrf dvtnfqnatm krmikkiqdl eraalpvkel eeynqilvdm
      721 etvysvasvc hkngtclrle pdltrlmats rnyqdlawaw kswrdkvgrs ilpyfpkyve
      781 ltnkaarlng yqdggdswrs myempfleee leqlfqelqp lylnlhayvr ralhhhygpd
      841 vinlegpipa hllgnmwaqs wsniydlvap fpsapkmdat eamikqgwtp lrmfkeadnf
      901 ftslgllpmp pefwnksmle kptdgrevvc hasawdffng kdfrikqcts vnmedlvvah
      961 hemghiqyfm qykdlpvtfr eganpgfhea igdvlalsvs tpthlhkigl lssgdgsyee
     1021 dinflmkmal dkiafipfsf lvdqwrwrvf dgsvtrenyn qewwslrlky qgvcpplars
     1081 qddfdpgakf hipasvpyvr yfvsfviqfq fhqalcqaag hqgplhkcdi yqskeagkll
     1141 adamklgfsq pwpeamrlmt getkvstkal mtyfkpllnw lvtenvrqge ilgwpdfscs
     1201 feeressraa flgmelntdl viswqwtlla lsfvmllavl llgrrlytle kssltqdtst
     1261 qdtrsqgtqs qsprsqdssa ikpasktyfl giamephqvv krqwmllglc llltlgsigl
     1321 iiriftqhnr kppwmrdewg swd
 
8、Prothrombin [Tupaia chinensis]. Sequence ID: gb|ELW48852.1|
所有的其他物种的Prothrombin都是620-630氨基酸，而Tupaia chinensis的含有
将近710个氨基酸，值得怀疑，很可能测序错误，或者拼接错误如方框部分50个
氨基酸序列找不到任何相似序列。
        1 maqvgglglp gclvlaalcg llhsqhgtep gaggswedcc apppiwgggg ghfgrgdgga
       61 afssfrdfrs prhsrarqaa waransgfle evregnlere cveelcsyee afealespsa
      121 tvsgncaegl gmnyrgtvnv trsgiecqlw ksryphkpei nstthpgadl qenfcrnpds
      181 sttgpwnptv rreecnvpvc ergglhvilp 【llfpavrlat atrrcevhnc aipghlgarl
      241 wgpvmlvvtl】 sqsegpaepg swlrpgpgqe hvtvemtprs ggsrvnlpps sepcvpdrgr
      301 qyqgrlavtt qgspclawas veakalskdq dfnpavplve nfcrnpdgde egawcyvaga
      361 pgdfeycdlk yceealeeee eagdgleedp dqaiegrtst qefqpffnek tfgageadcg
      421 lrplfekksl edstekelld syiagrivkg reaevgsapw qvmlfrkhpq ellcgaslls
      481 drwiltaahc llyppwdknf tenellvrig khsrnryern iekiamleki yihprynwre
      541 nldrdiallk lknpitfsdr ihpvclpdke tavrllvsgy kgrvtgwgnl ketwiasvde
      601 vqpnalqvvn lpiverpvck astriritdn mfcagkgykp eeqkrgdace gdsggpfvmk
      661 spfnkrwyqm givswgegcd rdgkygfyth vlrlkkwiqk vieraga
       
9、Coagulation factor VII [Tupaia chinensis]. Sequence ID: 
gb|ELW47487.1 所有的其他物种的Coagulation factor VII都是440个氨基酸以
上，而Tupaia chinensis的只有不到360个氨基酸。最重要的是前面Tupaia 
chinensis 的Coagulation factor VII前体N-末端近60个氨基酸（下划线部分序
列）找不到任何序列相似性，很可能测序错误。
 
1 【mgarllsllg vllwlqgslt agrgqsqpcp eesvggqall lvllvghipe cvlriqamqn】
       61 gdqcssnpcq nggscqdqlq syicfcragf egrncetnks qqlmcvndng gcqqychdrg
      121 dagrtchche gytllgdgvs ctpaveypcg kipvlekkna sspqgrivgg kvcpkgecpw
      181 qallrlngal lcggtllaph wvvsaahcld rlrswrnltv vlgehdlsed egheqprqva
      241 qvivpdkyvp grtdhdiall rlrrpavlsd hvvalclpea afsertlarv rfsvvsgwgq
      301 llgrgatale lmavdpqlwq tdepevpscl wplslqahac pmcvncdtdy mpcstp
coagulation factor VII [Tursiops truncatus].
        1 maprlrglal lclllglrgs lvavfvsqeq ahsvlhrprr anwlleelwp gslerecree
       61 fcsfeearei fqskertnqf wisyndgdqc asrpcqnggs cedqlqsylc fcldgfegrn
      121 cetdkksqli cpndnggceq ycrddaeagr tcwchegyal qadgvsctat veypcgkmpv
      181 lqkrndsnpq grivgghvcp kgecpwqaml klngallcgg slldtvwvvs aahcfdrlrs
      241 wrnltvvlge hdlsqdegde qerqvaqvii pdkyvrgktd hdlallrlar pvalgdhvap
      301 lclperafae rtlafvrfsa vsgwgqller gatalrlmav hvprlltqdc rqlsrrrpsg
      361 pvitdnmfca gytdgskdac kgdsggphat hfqgtwyltg vvswgegcaa aghfgvytrv
      421 sqytawlrrl mvspppsggl vrapllp

(XYS20130531)

◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇