◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇ 华大基因组测序及其发表文章的一些疑问 作者:基因组爱好者   前段时间在数据库查询一些野生稻序列,需要找Oryza rufipogon 和 Oryza nivara这两种野生稻的基因序列,首先查到一篇文章是Resequencing 50 accessions of cultivated and wild rice yields markers for identifying agronomically important genes,发表于Nat Biotechnol. 2011 Dec 11;30(1):105-11,这篇文章的通讯作者是中国科学院昆明动物研究所的王文和 华大基因的王俊,但是让人不解的是在NCBI数据库里面根本查不到他们提交的任 何关于这两种野生稻的基因和蛋白质序列。   这引起了我的兴趣,后来又发现了王文和王俊为共同通讯作者的另外一篇文 章,也是关于基因组的(Sequencing and automated whole-genome optical mapping of the genome of a domestic goat (Capra hircus),Nat Biotechnol. 2013 Feb;31(2):135-41),同样也发现他们没有提交任何Capra hircus基因和 蛋白质序列到NCBI。   一般来说,基因组文章总是得先提交序列到NCBI等相关的数据库,然后发表 文章,也有的会后提交序列信息,但是对于已经在2011年12月份和2013年2月份 就已经正式发表的文章来说,到现在都没有任何基因序列信息的提交确实很让人 不可理解。何况这两篇文章都是全基因组序列的文章,花了大量的科研经费(至 少得几百万吧),难道花了这么多钱,就发表2篇文章了事,而不给公众任何数 据?这也是实在对不起这么多科研经费吧?   那么究竟是什么原因呢?难免会让人猜测,是不是序列数据本身有什么问题 呢?其实以前就听说过华大的基因序列数据的质量常常不敢恭维,怀着试一试的 心理,随便去抽查了华大最近释放的一个关于Tupaia chinensis全基因组序列数 据,真是不查不知道,一查吓一跳,这个全基因组数据错误百出。由于基因组数 据太大,不可能进行全部验证,只能随机抽查,抽查35条序列,结果显示,有 25%左右的序列都有或多或少的错误(部分抽查结果见附件,Sequence ID: ELV14235.1, ELW68196.1, ELW63486.1, ELW54969.1, ELW49150.1, ELV09248.1, ELW67516.1, ELW48852.1, ELW47487.1)。主要错误如下:   (1)将A前体序列和B前体序列混拼接在一起;   (2)序列的任何部位可能出现一些莫名其妙的大片段序列(超过50个氨基 酸),这些序列找不到任何相似序列(注:这种现象在基因序列中可能出现,但 是对于树鼩这类与灵长目很接近的物种来说,在很多蛋白质前体序列中出现找不 到任何相似度的大片段序列很难理解)。   (3)明显的序列测定错误,如在保守的信号肽前面或者后面出现一些莫名其 妙的大片段序列(超过50个氨基酸),这些序列找不到任何相似序列。   (4)同时出现序列测定错误和序列胡乱拼接(混拼)。   很巧的是,这篇文章的通讯作者同样的中国科学院昆明动物研究所的姚永刚 和王俊(Nat Commun. 2013;4:1426. Genome of the Chinese tree shrew)。 我同时也很难相信,用这么错误的数据怎么就在这篇文章中得出了Tupaia chinensis与灵长类动物很接近这一结论。基因组数据量太多,确实很难证实或 者证伪,这也许就是很多人为了发表文章而疯狂进行基因组测序的原因之一吧。   附件: 树鼩基因组序列的部分抽查结果(随机抽查了35条序列,发现了9条 序列有严重错误)   以下是从NCBI随机抽查发现的一些有错误的树鼩序列,包括分子量小的多肽, 分子量大的酶,主要错误如下:   (1)将A前体序列和B前体序列混拼接在一起;   (2)序列的任何部位可能出现一些莫名其妙的大片段序列(超过50个氨基 酸),这些序列找不到任何相似序列(注:这种现象在基因序列中可能出现,但 是对于树鼩这类与灵长目很接近的物种来说,在很多蛋白质前体序列中出现找不 到任何相似度的大片段序列很难理解)。   (3)明显的序列测定错误,如在保守的信号肽前面或者后面出现一些莫名其妙 的大片段序列(超过50个氨基酸),这些序列找不到任何相似序列。   (4)同时出现序列测定错误和序列胡乱拼接(混拼)。 1、Yorkie like protein [Tupaia chinensis] Sequence ID: gb|ELV14235.1| MKVLVLLAAIFLVAIQAQADPLPARTEEALDQEQFGAEDQDVPVDFAGEESSALRAAGESMYSGLSMSSCSVPQTPDVFLSSIGEMDMGDTVNQSTLPSQQNHFLDSLDPFLE 前面50个氨基酸是defensin的前体序列,后面是Yorkie序列,明显是拼接错误。 2、Anaphase-promoting complex subunit 11 [Tupaia chinensis] Sequence ID: gb|ELW68196.1| [1 mkvkikcwng vatwlwvand encgicrmaf ngccpdckvp gddcplvwgq cshcfhmhci 61 lkwlnaqqva aalalc]lllv ppssa_wykpa agpsyysvgr aagllsgfrr saya_rrpelp 121 igagprdpeg afpelrslal cvkevtpnlq scerlpdgrg tlqckadvfl slraadcsst 方框部分为Anaphase-promoting complex subunit 11 下划线部分为neuropeptide B 明显是拼接错误,将Anaphase-promoting complex subunit 11和neuropeptide B拼接在一起。 3、Orexin [Tupaia chinensis] Sequence ID: gb|ELW54969.1| 1 mslfpttseh ykpqvpgsrs qwtaarfqat rttadifpgc ptlssrhnep slhkgllpll 61 llllllppal lspgaaaqpl pdccrqktcs crlyellhga gnhaagiltl gkrrpgppgl 121 qgrlqrllqa sgnhaagilt mgrragaesa prpcagrrcp vvaatsiapg grsgv 正常的Orexin 1 mnpsstkvsw atvtllllll llppallspg aaaqplpdcc rqktcscrly ellhgagnha 61 agiltlgkrr pgppglqgrl qrllqasgnh aagiltmgrr agaepalrpc sgrrcpseaa 121 ssvapggrsg v 所有其他物种的Orexin前体都是130个氨基酸左右,序列比对可以明显发现 Tupaia chinensis的前体在信号肽前面莫名其妙地增加了50多个氨基酸序列(方 框部分),这50多个氨基酸序列找不到任何序列相似性,很可能又是序列粗定错 误,而且拼接错误,因为在Tupaia chinensis的前体那儿只出现了部分信号肽序 列(粗体)。 4、Appetite-regulating hormone [Tupaia chinensis] Sequence ID: gb|ELW63486.1| 1 mlsprtical lllsmlwvds aaagssflsp ehqkaqqkke skkppaklqp raaegslppe 61 dgsqaegaee eleiqfntpf dvgiklsgaq fqqhgqalgk flqdilweea egks【ppgsgs 121 rgfhqvpegd phvgntkppp qhltlsfkff aighvclpet erqresekss pgwgrprcnl 181 fsilpeilgm hkyrv】 human 1 mpspgtvcsl lllgmlwldl amagssflsp ehqrvqqrke skkppaklqp ralagwlrpe 61 dggqaegaed elevrfnapf dvgiklsgvq yqqhsqalgk flqdilweea keapadk 所有其他物种的Appetite-regulating hormone前体都是只有110个氨基酸左右的 长度,而Tupaia chinensis的Appetite-regulating hormone前体却含有近200个 氨基酸,很明显,Tupaia chinensis的Appetite-regulating hormone的C-末端 多出的近90个氨基酸(方框粗体部分)是序列测定错误及序列序列拼接错误。而 且这90个氨基酸序列没有任何相似序列,来得很突然。 5、Protachykinin-1 [Tupaia chinensis] Sequence ID: gb|ELW49150.1 1 menaqglrsn vrskhpalqg fgfvtcapve mvhavmnarp qgksspnkrw lvlspaqeve 61 vvletsvvie kvvlvvmttl vmeetsvvvv almaaivvvd taevgiaimd lgfprhssvg 121 gdsaegaaae rgpgerfpha naplclppag pgglkksdmk ilvalavffl vssqlfaeei 181 ganddlnyws dwsdsdqike elpepfehll qriarrpkpq qffglmgkrd adssiekqva 241 llkalyvgye rsamqnyerr rk preprotachykinin I [Tupaia belangeri]. 1 mkilvalavf flvssqlfae eiganddlny wsdwsdsdqi keelpepfeh llqriarrpk 61 pqqffglmgk rdaghgqish krhktdsfvg lmgkralnsv ayernamqdy errr 以上两条序列比较可知,Tupaia chinensis的Protachykinin-1 在其N-末端明显 多出了将近160个氨基酸,且这段氨基酸找不到任何相似序列,这再次说明出现 测序错误和胡乱拼接。而下划线部分才是真正的Protachykinin-1 6、Neurokinin-B [Tupaia chinensis] Sequence ID: gb|ELV09248.1| MRSTLLFAAVLALSLTQSFGAVCEESEEQVVPSGGHSKKDRDLYQLPPSLLRRLHDSRSVSLEGLLKALSKASIGDMHDFFVGLMGKRNIQTGTEGNQENAPRFGTLKFPPSAE neurokinin-B precursor [Sus scrofa]. 1 mrstllfvai lalslawslg aaceesqeql mpggghskkd snlyqlpssl lrrlcdsrsi 61 sldgllkmls kasvgakess lpqkrdmhdf fvglmgkrni qpgtpvdgnq enapslgtfk 121 yppsve 方框部分序列在所有物种都有,但是在树鼩中没有,很可能测序漏测和拼接错误。 7、Angiotensin-converting enzyme [Tupaia chinensis] Sequence ID: gb|ELW67516.1| 实际上,所有的这个酶基本上都是1300多个氨基酸,而树鼩含有2160多个氨基酸 1 mvacpmwpgl rcvpppfppf wcpqeeaall hqefaeawgq kakelfdpiw qnftdptlrr 61 vidavrtlgp anlplakrqq ynsllntmsk iysttkvcfp nktatcwsld pdltnilass 121 rnyamllfaw egwhnavgip lkplyenfta lsneaykqdg fsdtgaywrs wydsptfeed 181 leniyrqlep lylnlhayvr rtlhrqygdr yinlrgpipa hllgnmwaqg wdniydmvvp 241 fpdkpnldvt simvqkvgar wddgreglrg gvrveaapvq ssslehhkvc prqgrqllap 301 dlspcsqhqg wnathmfrva eefftslgls pmppefwaes mlekptdgre vvchasawdf 361 ynrkdfrikq ctqvtmdqls tvhhemghvq yylqykdqpv slrgganpgf heaigdvlal 421 svstpahlhk igllenvttd rendinyllk malekiaflp fgylvdqwrw gafsgrtpps 481 rynfdwwylr tkyqglcppv vrnethfdag akfhvpnvtp yiryfvsfvl qfqfhqalck 541 eaghqgplhh cdiykstqag dklravlqag ssrpwqevlk dmvgsdtlda rplleyfqpn 601 rrngevlgwp eyqwrpplpn nypegiglcs paamgqggaa pglpslflll lccghlplvp 661 sqtaphqvtv nqgttsqatt ssqttarqaa ssqiattkrp nlvtneaear kfveeydqvs 721 qvvwneftea nwnyntnitt enskilnrly lsearaglrg lrapvglrse gctsaaplqp 781 valsgqycsn hreptflkgl pcagcgssal fvcaastpqa qrgqgayakl ppptgplrhv 841 lqknmkinnh tlvfgtrarq fdvsnfqnat tqriikklqd leraalpfqe leeynkilmd 901 mettysvatv chtngtclhl dpdlthlmat srkyedllwv wkswrdkvgr eilpffpkyv 961 tlankaaqln gytdagdswr avyetpsleq dleqlfqelq plylnlhayv rralhrhygp 1021 ehinlrgpip ahllgnmwgq twsniydlvv pfpsapslda teamikqgwt prrmfkeadn 1081 fftslgllpv ppefwnksml ekptdgrevv chasawdfyn gkdfrikqct tvnmedlvva 1141 hhemghiqyf mqykdlpvil reganpgfhe aigdvlalsv stpkhlhsin llasdgggye 1201 hdinflmkma ldkiafipfs ylidqwrwrv fdgsitkeny nqewwslrlk yqglcppvpr 1261 sqgdfdpgak fhipssvpyi ryfvgfitqf qfhealcqaa ghkgplhkcd iyqskeagrl 1321 ladtlklgss krwpeammlm tgqpnmsasa imnyfkplld wlltgrhgeq lgwpeynwtp 1381 nsarsessss dggrvnflgm nleaqqarvg qwvllflgva llvltsadsl pscshewpan 1441 fynesearkf lafyeqtaql vlnqfveatw nyvtnitrtn qenmlhkeve ksqfmmyfgs 1501 rarlfktaql qdldvkrals klqdidkaal pkdelweynk lladmettys maqvclnegp 1561 cmslepeled imansrdqke llwawqgwrd avgrlirtsf eryvqlsnkv aqlngyndmg 1621 alwraryewd tleqdleqlf qelqplylnl hasdleqlfq elqplylnlh ayvrralhrh 1681 ygpehinlrg pipahllgnm waqswinild lalpfpekpp editkimkaq hwnaekmfee 1741 aekfftslgl lpvppnfwek smferptdgr evechasawd fyngkdfrik kctevtiedl 1801 lsifhqmghi qyflqyknls vtfrtganpa feeavgsvit lsasshkhlv frgllshqhq 1861 dseeevnflm gialdkivfi pfgylmdlfr wkvfdgtihk diynqewwnl klkyqglcpp 1921 vprseedfdp aakfhisase pymryflslv lqfqihealc tasghvgplh rcdiynskaa 1981 gelladalkl gsskpwpevl ekltgqsevs tkalmtyfkp llnwlvaenv rqgdilgwpd 2041 fscsfeeket dkmrflglel epdqassgqw vllvlnlfll lvtlglgfrl yflekqslae 2101 dsdasitmpk ayflglrmep hlvarrqwmm lglsfilmlc siglairvft qhngkppwmk 2161 tewwssd angiotensin-converting enzyme [Ovis aries]. 1 mseprgkqrg etqlipkeqk egadrlgiip dertkaggss mvrrahmsse pqaaeqeeaa 61 llsqefseaw gqkakglfdp vwqnftdptl lriigavrtl gpanldlekr qkynsllsnm 121 sriystakvc fpnktapcws ldpeltnvla ssrsyallly awegwhnaag iplkplyqdf 181 talsneaykq dgfsdtgayw rswydsptft edlerlyqql eplylnlhay vrralhrryg 241 dryinlrgpi pahllgnmwa qswenvydmv vpfpdkpnld vtsamvqkgw nathmfrvae 301 efftslgllp mppefwaesm lekpsdgrev vchasawdfy nrkdfrikqc trvtmdqlst 361 vhhemghvqy ylqykdqhvs lrrganpgfh eaigdvlals vstpahlhki glldqvtndt 421 esdinyllkm alekiaflpf gylvdqwrwg vfsgrtppsr ynydwwylrt kyqgicppvv 481 rnethfdaga kfhvpnvtpy iryfvsfvlq fqfhealcke aghqgplhqc diyqstqaga 541 klrallqags srpwqevlkd mvgsdnldar pllsyfqpvt qwleeqnqqn gevlgwpeyq 601 wrpptpdnyp egidlvsdea earkfveeyd rrsqvvwney aeanwnyntn istdnskllm 661 qknlqmanht vkygtwarrf dvtnfqnatm krmikkiqdl eraalpvkel eeynqilvdm 721 etvysvasvc hkngtclrle pdltrlmats rnyqdlawaw kswrdkvgrs ilpyfpkyve 781 ltnkaarlng yqdggdswrs myempfleee leqlfqelqp lylnlhayvr ralhhhygpd 841 vinlegpipa hllgnmwaqs wsniydlvap fpsapkmdat eamikqgwtp lrmfkeadnf 901 ftslgllpmp pefwnksmle kptdgrevvc hasawdffng kdfrikqcts vnmedlvvah 961 hemghiqyfm qykdlpvtfr eganpgfhea igdvlalsvs tpthlhkigl lssgdgsyee 1021 dinflmkmal dkiafipfsf lvdqwrwrvf dgsvtrenyn qewwslrlky qgvcpplars 1081 qddfdpgakf hipasvpyvr yfvsfviqfq fhqalcqaag hqgplhkcdi yqskeagkll 1141 adamklgfsq pwpeamrlmt getkvstkal mtyfkpllnw lvtenvrqge ilgwpdfscs 1201 feeressraa flgmelntdl viswqwtlla lsfvmllavl llgrrlytle kssltqdtst 1261 qdtrsqgtqs qsprsqdssa ikpasktyfl giamephqvv krqwmllglc llltlgsigl 1321 iiriftqhnr kppwmrdewg swd 8、Prothrombin [Tupaia chinensis]. Sequence ID: gb|ELW48852.1| 所有的其他物种的Prothrombin都是620-630氨基酸,而Tupaia chinensis的含有 将近710个氨基酸,值得怀疑,很可能测序错误,或者拼接错误如方框部分50个 氨基酸序列找不到任何相似序列。 1 maqvgglglp gclvlaalcg llhsqhgtep gaggswedcc apppiwgggg ghfgrgdgga 61 afssfrdfrs prhsrarqaa waransgfle evregnlere cveelcsyee afealespsa 121 tvsgncaegl gmnyrgtvnv trsgiecqlw ksryphkpei nstthpgadl qenfcrnpds 181 sttgpwnptv rreecnvpvc ergglhvilp 【llfpavrlat atrrcevhnc aipghlgarl 241 wgpvmlvvtl】 sqsegpaepg swlrpgpgqe hvtvemtprs ggsrvnlpps sepcvpdrgr 301 qyqgrlavtt qgspclawas veakalskdq dfnpavplve nfcrnpdgde egawcyvaga 361 pgdfeycdlk yceealeeee eagdgleedp dqaiegrtst qefqpffnek tfgageadcg 421 lrplfekksl edstekelld syiagrivkg reaevgsapw qvmlfrkhpq ellcgaslls 481 drwiltaahc llyppwdknf tenellvrig khsrnryern iekiamleki yihprynwre 541 nldrdiallk lknpitfsdr ihpvclpdke tavrllvsgy kgrvtgwgnl ketwiasvde 601 vqpnalqvvn lpiverpvck astriritdn mfcagkgykp eeqkrgdace gdsggpfvmk 661 spfnkrwyqm givswgegcd rdgkygfyth vlrlkkwiqk vieraga 9、Coagulation factor VII [Tupaia chinensis]. Sequence ID: gb|ELW47487.1 所有的其他物种的Coagulation factor VII都是440个氨基酸以 上,而Tupaia chinensis的只有不到360个氨基酸。最重要的是前面Tupaia chinensis 的Coagulation factor VII前体N-末端近60个氨基酸(下划线部分序 列)找不到任何序列相似性,很可能测序错误。 1 【mgarllsllg vllwlqgslt agrgqsqpcp eesvggqall lvllvghipe cvlriqamqn】 61 gdqcssnpcq nggscqdqlq syicfcragf egrncetnks qqlmcvndng gcqqychdrg 121 dagrtchche gytllgdgvs ctpaveypcg kipvlekkna sspqgrivgg kvcpkgecpw 181 qallrlngal lcggtllaph wvvsaahcld rlrswrnltv vlgehdlsed egheqprqva 241 qvivpdkyvp grtdhdiall rlrrpavlsd hvvalclpea afsertlarv rfsvvsgwgq 301 llgrgatale lmavdpqlwq tdepevpscl wplslqahac pmcvncdtdy mpcstp coagulation factor VII [Tursiops truncatus]. 1 maprlrglal lclllglrgs lvavfvsqeq ahsvlhrprr anwlleelwp gslerecree 61 fcsfeearei fqskertnqf wisyndgdqc asrpcqnggs cedqlqsylc fcldgfegrn 121 cetdkksqli cpndnggceq ycrddaeagr tcwchegyal qadgvsctat veypcgkmpv 181 lqkrndsnpq grivgghvcp kgecpwqaml klngallcgg slldtvwvvs aahcfdrlrs 241 wrnltvvlge hdlsqdegde qerqvaqvii pdkyvrgktd hdlallrlar pvalgdhvap 301 lclperafae rtlafvrfsa vsgwgqller gatalrlmav hvprlltqdc rqlsrrrpsg 361 pvitdnmfca gytdgskdac kgdsggphat hfqgtwyltg vvswgegcaa aghfgvytrv 421 sqytawlrrl mvspppsggl vrapllp (XYS20130531) ◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇