注:同時(shí)支持 Windows 和 MacOS。
寫(xiě)在前面前述,我已經(jīng)寫(xiě)了兩個(gè) TBtools 插件,實(shí)現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機(jī),非WSL),使用 Hisat2 進(jìn)行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖。最近家里事情較多,期間不少時(shí)間可以天馬行空的想事情。過(guò)于具體的生物學(xué)問(wèn)題難以思考出個(gè)答案,畢竟是以實(shí)踐為主。但數(shù)據(jù)分析上的鬼點(diǎn)子倒是非常合適。 過(guò)去幾年,正是這類時(shí)間,讓我能設(shè)計(jì)出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式,也是臨時(shí)想到的實(shí)現(xiàn)方式。 今天躺著,突然想著: 目的是矯正基因注釋 手段是在我改造的基因?yàn)g覽器 IGV-GSAme 矯正 輸入是基因組,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM 操作是基于RNA的Alignments,手動(dòng)調(diào)整注釋
那么問(wèn)題來(lái)了,要在windows完成全部工作,我們會(huì)遇到幾個(gè)問(wèn)題 IGV的特性不足,通過(guò) IGV-GSAme 已經(jīng)解決 轉(zhuǎn)錄組回帖,通過(guò) TBtools 的 Hisat2 插件也解決了 基因組局部區(qū)域的有參考組裝,無(wú)解!
既然無(wú)解,那我完全可以鼓搗一個(gè)windows下的stringTie,中間做個(gè)接口,那么就可以實(shí)現(xiàn)局部組裝(注意,指定一個(gè)區(qū)域組裝,常常反而能組裝出準(zhǔn)確的結(jié)果,具體自行思考)。千里之行始于足下,在讓 IGV-GSAme 變得更強(qiáng)之前,先做一個(gè)簡(jiǎn)單的東西,TBtools插件。 StringTie Wrapper - 新的 TBtools 插件
一共兩個(gè)對(duì)應(yīng)的是 Stringtie 兩個(gè)主要功能: Stringtie Assembly : 轉(zhuǎn)錄組組裝 Stringtie Quantify : 轉(zhuǎn)錄本表達(dá)量估計(jì)
StringTie Assembly 插件的使用
對(duì)于組裝一步,參數(shù)簡(jiǎn)單,用戶只需要提供排序好的BAM文件即可,這些文件,事實(shí)上可以通過(guò)前幾天推的 Hisat-build 和 Hisat-align 插件來(lái)獲取。需要注意的有三點(diǎn): 參考物種基因結(jié)構(gòu)注釋是可選的 設(shè)置輸出目錄而不是輸出文件,因?yàn)榻M裝時(shí)是單個(gè)bam文件單獨(dú)組裝,最后再進(jìn)行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取,可直接使用 TBtools 的 GXF Sequence Extract,請(qǐng)參考公號(hào)前述推文) 并行線程數(shù),應(yīng)該注意,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價(jià)。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運(yùn)行,但windows系統(tǒng)限制,所以只能單線程,且速度上不來(lái)。這沒(méi)關(guān)系,我們可以多個(gè)文件同時(shí)組裝,這樣也就只需要使用stringtie的單線程模式,畢竟很多時(shí)候,我們并不可能做一個(gè)樣品的轉(zhuǎn)錄組測(cè)序和組裝 - PS:windows下可能會(huì)慢不少,比如6G的轉(zhuǎn)錄組,估計(jì)組裝時(shí)間大概要到 1個(gè)小時(shí),在我的筆記本上。不過(guò)同時(shí)跑2個(gè),那么也是1個(gè)小時(shí)嘛..) 組裝結(jié)果大體如下,我做了兩個(gè)實(shí)際數(shù)據(jù)的,


StringTie Quantify 插件的使用
使用簡(jiǎn)單,用戶需要的注意的幾乎只有三點(diǎn): 排序好的BAM文件 一個(gè)必須的基因結(jié)構(gòu)注釋文件,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果。 ReadLength, 這一參數(shù)即測(cè)序讀長(zhǎng)。因?yàn)镾tringTie計(jì)算的其實(shí)是Coverage,并沒(méi)有讀段計(jì)數(shù)這一步。常見(jiàn)的操作是簡(jiǎn)單地基于Coverage反推raw counts。于是read length成為必要。
整體上會(huì)輸出六個(gè)矩陣,具體大伙自己看名字就知道是啥。 
即,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM,TPM矩陣。可查看其中某個(gè)。 
注意到,我前面做StringTie Assembly的時(shí)候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實(shí)上是沒(méi)有被組裝出來(lái)的,一般是覆蓋率極低),而MSTRGXXXX等為已有注釋中被當(dāng)前樣品覆蓋以及新注釋出來(lái)的基因。 PS:四個(gè)插件將會(huì)一并上線至插件商店,暫時(shí)票價(jià)應(yīng)該會(huì)定位 100,打包估計(jì) 365,具體再定。
感興趣的,想上車的,請(qǐng)參考前述《Plugin | 高速版插件商店!我又有一個(gè)絕妙的 idea》推文。 寫(xiě)在最后忙,簡(jiǎn)單的推文斷續(xù)寫(xiě)了幾天。現(xiàn)在是大年三十晚上九點(diǎn),也算是在新春到來(lái)之時(shí),了卻一個(gè)鬼點(diǎn)子。 在此祝大伙新春快樂(lè),牛年大吉! 搞個(gè)活動(dòng) 評(píng)論區(qū)點(diǎn)贊前三,送新春現(xiàn)金紅包:¥66.66,¥33.33,¥11.11 !
|