|
相對(duì)速度快并且占用內(nèi)存小的TopHat在RNA-Seq中常常用于跨內(nèi)含子比對(duì),這里我們來(lái)關(guān)注一下TopHat2,TopHat2的安裝是依賴Bowtie2的(當(dāng)然Bowtie1也是可行的),TopHat2適合于75bp以上Read的比對(duì)。TopHat2是一個(gè)多步驟比對(duì)的程序,如果基因組的注釋文件存在的話,那么它會(huì)先將Read比對(duì)到轉(zhuǎn)錄組上。這就大大提高了比對(duì)的準(zhǔn)確性,還可以避免序列匹配到假基因上,加快了整個(gè)比對(duì)的進(jìn)程。TopHat2容錯(cuò)率很低,并不會(huì)因?yàn)闆](méi)有比對(duì)上就而截短Read從而去比對(duì)上,所以低質(zhì)量的堿基比對(duì)的效果可能不是那么好。此外,TopHat2可以察覺(jué)基因組的易位,將Read比對(duì)到潛在的融合轉(zhuǎn)錄子上。 TopHat2比對(duì)有三個(gè)主要的過(guò)程,轉(zhuǎn)錄組的比對(duì)(步驟一),基因組的比對(duì)(步驟二),剪接比對(duì)(步驟三到六,如圖4.1顯示的一樣),雙端測(cè)序的Read首先每端數(shù)據(jù)要分別單獨(dú)進(jìn)行比對(duì),然后考慮比對(duì)的片段長(zhǎng)度以及方向?qū)为?dú)比對(duì)結(jié)果合并在一起形成雙端比對(duì)結(jié)果。 圖4.1Tophat2剪接比對(duì)的程序 (a)那些沒(méi)有比對(duì)到基因組或者轉(zhuǎn)錄組的Read將會(huì)片段化,形成更小的片段,并且再一次比對(duì)到基因組上,如果TopHat2發(fā)現(xiàn)Read片段化后的左右兩個(gè)片段的位于用戶定義的最大內(nèi)含子長(zhǎng)度范圍內(nèi),TopHat2就會(huì)將Read映射到整個(gè)基因組的區(qū)域以便于去尋找那些含有剪接信號(hào)的剪接位點(diǎn)(b)潛在的剪接位點(diǎn)側(cè)翼基因組序列被串聯(lián)起來(lái),并構(gòu)建索引,未映射的Read片段(在這里由星號(hào)標(biāo)記)用Bowtie2比對(duì)串聯(lián)的側(cè)翼區(qū)域。(c)被分割的片段重新連接形成完整的Read。 1. 如果注釋信息是已知的,那么TopHat2就會(huì)將Read比對(duì)到轉(zhuǎn)錄組上,它是通過(guò)一個(gè)GTF或是GFF格式的文件從bowtie2建立的索引文件里提取轉(zhuǎn)錄本序列。 2. 沒(méi)有完全比對(duì)到轉(zhuǎn)錄組的Read再次通過(guò)Bowtie2比對(duì)到基因組,在這一階段,那些能夠連續(xù)比對(duì)到單一外顯子的Read將會(huì)映射到基因組上,而比對(duì)到多個(gè)外顯子的Read將不會(huì)映射到基因組上。 3. 那些沒(méi)有被映射上的Read將會(huì)被片段化,通常默認(rèn)大小為25bp,之后再次比對(duì)到基因組上,如果TopHat2發(fā)現(xiàn)左右的片段化的Read映射到自定義的最大內(nèi)含子區(qū)長(zhǎng)度內(nèi),TopHat2就會(huì)將Read映射到整個(gè)基因組的區(qū)域以便于去尋找那些含有剪接信號(hào)(GT-AG, GC-AG, or AT-AC))的剪接位點(diǎn),TopHat2在這一步也能用于尋找缺失以及融合轉(zhuǎn)錄子。 4.潛在的剪接位點(diǎn)的側(cè)翼基因組序列被串聯(lián)起來(lái),并構(gòu)建索引,未映射的Read片段用Bowtie2比再次比對(duì)串聯(lián)的側(cè)翼序列。 5. 將步驟3和步驟4的小片段拼接在一起完成整個(gè)Read的比對(duì)。 6. 在步驟2中Read有一部分堿基比對(duì)到內(nèi)含子的將會(huì)用新的剪接位點(diǎn)的信息進(jìn)行重新比對(duì)。 7. 在多重比對(duì)中為了確定哪一個(gè)位置比對(duì)是最合適的,TopHat2將會(huì)依據(jù)匹配到剪接位點(diǎn)的或者indel的Read數(shù)量信息重新判分以選擇最優(yōu)的比對(duì)。 構(gòu)建索引 如果你想使用TopHat2,那么你就要像前文描述Bowtie2一樣建立基因組的索引,TopHat2一樣需要相應(yīng)的基因組的FASTA格式的文件,所以索引建立好后用不著刪除,如果FASTA格式的基因組不與索引在同一個(gè)文件夾下,那么Tophat2在運(yùn)行過(guò)程中就會(huì)自動(dòng)生成,所以TopHat2的使用是一個(gè)高耗時(shí)的。 如果GTF或是GFF格式的基因組注釋文件存在的話,那么讀長(zhǎng)將會(huì)優(yōu)先比對(duì)到注釋文件的轉(zhuǎn)錄組,GTF的文件可在http://www./info/data/ftp/index.html網(wǎng)站找到,選擇對(duì)應(yīng)的生物和GTF選項(xiàng)即可。 如果可行的話,應(yīng)該事先準(zhǔn)備好轉(zhuǎn)錄組索引以節(jié)約后續(xù)比對(duì)的時(shí)間。 tophat2 -G GRCh37.74.gtf --transcriptome-index= GRCh37.74.tr GRCh37.74 在這里我們使用了注釋文件GRCh37.74.gtf和Bowtie2生成的基因組索引GRCh37.74來(lái)建立名為GRCh37.74.tr轉(zhuǎn)錄組索引,這里需要注意的是,基因組索引里染色體的名稱一定要和GTF文件里的相同。在這里Bowtie2生成的基因組索引文件必須用到,所以TopHat2的使用是依賴于Bowtie2的。運(yùn)行完畢后,生成的文件如: GRCh37.74.tr.1.bt2 GRCh37.74.tr.2.bt2 GRCh37.74.tr.3.bt2 GRCh37.74.tr.4.bt2 GRCh37.74.tr.fa GRCh37.74.tr.fa.tlst GRCh37.74.tr.gff GRCh37.74.tr.rev.1.bt2 GRCh37.74.tr.rev.2.bt2 GRCh37.74.tr.ver 比對(duì)Read FASTA和FASTQ類(lèi)型的文件都可以作為T(mén)opHat2的輸入文件,.gz結(jié)尾壓縮的Read是可以直接使用的,但是.tgz 或者 .tar.gz結(jié)尾的壓縮文件是需要被解壓后才能使用。下面的例子分別展示對(duì)了單端測(cè)序和雙端測(cè)序的序列比對(duì)的命令,如果有必要的話,Tophat2也可以將單端測(cè)序的Read用于雙端測(cè)序Read的比對(duì)中。 下面兩個(gè)命令都可以作為單端比對(duì)方式,在例子中,序列被比對(duì)到人類(lèi)參考基因組(GRCh37.74),但是第一個(gè)命令用了先前就有的轉(zhuǎn)錄組的索引,而第二個(gè)命令的索引則是在執(zhí)行過(guò)程中生成的。 tophat2 -o outputFolder --transcriptomeindex=GRCh37.74.tr -p 8 --phred64-quals GRCh37.74 reads1.fastq.gz tophat2 -o outputFolder -G GRCh37.74.gtf -p 8 --phred64-quals GRCh37.74 reads1.fastq.gz 如果是近些年測(cè)序產(chǎn)生的數(shù)據(jù),那么TopHat2則默認(rèn)堿基質(zhì)量得分為質(zhì)量字符的ASCII值-33,但是如果測(cè)序較早,則應(yīng)該使用參數(shù)(--phred64-quals),則堿基質(zhì)量得分為質(zhì)量字符的ASCII值-64,參數(shù)(-p 8)可以設(shè)置8個(gè)線程加快比對(duì)速度。此外TopHat2處理鏈特異性測(cè)序數(shù)據(jù),一般Illumina數(shù)據(jù)的默認(rèn)library-type為fr-unstranded。TopHat2還有許多比對(duì)時(shí)可以使用的參數(shù),參數(shù)(-T)使得Read僅比對(duì)到轉(zhuǎn)錄組上,或者通過(guò)參數(shù)(-g)改變每個(gè)Read最大比對(duì)到參考基因組的次數(shù),一般情況默認(rèn)是20次。 The align_summary.txt 顯示了 79.3% 的Read映射上了: Reads: Input : 34232081 Mapped : 27140089(79.3% of input) of these: 1612317 (5.9%)have multiple alignments (2771 have >20) 79.3% overall read mapping rate. 雙端測(cè)序的序列比對(duì)的方式如下,需要注意的是兩個(gè)文件的Read的順序應(yīng)當(dāng)一致以保證TopHat2的正常運(yùn)行。如果有多個(gè)文件,那么僅需要用逗號(hào)將按順序?qū)⑽募糸_(kāi)就行。 tophat2 –o outputFolder ––transcriptomeindex=GRCh37.74.tr –p 8 --phred64-quals GRCh37.74 reads1.fastq.gz reads2.fastq.gz TopHat2有些參數(shù)特意針對(duì)應(yīng)用雙端測(cè)序得到的序列的比對(duì),,參數(shù)(-r)可以依據(jù)你的數(shù)據(jù)設(shè)置需要的兩比對(duì)末端的距離,通常默認(rèn)是50(樣品的插入片段大小為200bp,讀長(zhǎng)一般為75bp,200-2*75=50,譯者注目前大多數(shù)為雙端150bp),參數(shù)(--no-discordant)可以對(duì)于成對(duì)的Read,并且只報(bào)告方向以及插入片段一致的映射;如果Tophat2不能將成對(duì)Read一塊映射到基因組,那么默認(rèn)條件下它將單獨(dú)映射相應(yīng)的Read,參數(shù)(--no-mixed)可以改變這一默認(rèn)條件。 Left reads: Input : 34232081 Mapped : 27143093(79.3% of input) of these: 1014796 (3.7%)have multiple alignments (3621 have >20) Right reads: Input : 34232081 Mapped : 22600062 (66.0% of input) of these: 759539 (3.4%)have multiple alignments (3193 have >20) 72.7% overall read mapping rate. Aligned pairs: 21229613 of these: 702920 (3.3%)have multiple alignments 336032 (1.6%)are discordant alignments 61.0% concordant pair alignment rate. TopHat2可以產(chǎn)生多個(gè)輸出文件 accepted_hits.bam 以BAM文件的形式儲(chǔ)存著比對(duì)信息,這些比對(duì)信息是依據(jù)染色體的順序排列儲(chǔ)存的。 junctions.bed 是以Bed格式儲(chǔ)存著發(fā)現(xiàn)的剪接位點(diǎn),每個(gè)位點(diǎn)都含有左右兩個(gè)部分,每個(gè)部分長(zhǎng)度是Read能夠跨越剪接位點(diǎn)匹配到基因組的最遠(yuǎn)距離,最終的得分是跨越剪接位點(diǎn)的Read數(shù)量。 insertions.bed 包含著查詢到的插入位點(diǎn)信息,chromLeft指的是插入到基因組的位置。 deletions.bed 包含著查詢到的缺失位點(diǎn)信息,chromLeft指的是缺失片段的第一個(gè)堿基。 align_summary.txt能夠顯示比對(duì)效率以及多少Read能夠多處比對(duì)。 |
|
|