小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

StringTie 插件 | 直接在 Windows 下進(jìn)行轉(zhuǎn)錄組組裝與讀段計(jì)數(shù)

 生信藥丸 2021-07-26

注:同時(shí)支持 Windows 和 MacOS。

寫(xiě)在前面

前述,我已經(jīng)寫(xiě)了兩個(gè) TBtools 插件,實(shí)現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機(jī),非WSL),使用 Hisat2 進(jìn)行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖。最近家里事情較多,期間不少時(shí)間可以天馬行空的想事情。過(guò)于具體的生物學(xué)問(wèn)題難以思考出個(gè)答案,畢竟是以實(shí)踐為主。但數(shù)據(jù)分析上的鬼點(diǎn)子倒是非常合適。
過(guò)去幾年,正是這類時(shí)間,讓我能設(shè)計(jì)出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式,也是臨時(shí)想到的實(shí)現(xiàn)方式。
今天躺著,突然想著:

  • 目的是矯正基因注釋

  • 手段是在我改造的基因?yàn)g覽器 IGV-GSAme 矯正

  • 輸入是基因組,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM

  • 操作是基于RNA的Alignments,手動(dòng)調(diào)整注釋

那么問(wèn)題來(lái)了,要在windows完成全部工作,我們會(huì)遇到幾個(gè)問(wèn)題

  1. IGV的特性不足,通過(guò) IGV-GSAme 已經(jīng)解決

  2. 轉(zhuǎn)錄組回帖,通過(guò) TBtools 的 Hisat2 插件也解決了

  3. 基因組局部區(qū)域的有參考組裝,無(wú)解!

既然無(wú)解,那我完全可以鼓搗一個(gè)windows下的stringTie,中間做個(gè)接口,那么就可以實(shí)現(xiàn)局部組裝(注意,指定一個(gè)區(qū)域組裝,常常反而能組裝出準(zhǔn)確的結(jié)果,具體自行思考)。千里之行始于足下,在讓 IGV-GSAme 變得更強(qiáng)之前,先做一個(gè)簡(jiǎn)單的東西,TBtools插件。

StringTie Wrapper - 新的 TBtools 插件

一共兩個(gè)對(duì)應(yīng)的是 Stringtie 兩個(gè)主要功能:

  1. Stringtie Assembly : 轉(zhuǎn)錄組組裝

  2. Stringtie Quantify : 轉(zhuǎn)錄本表達(dá)量估計(jì)

StringTie Assembly 插件的使用

對(duì)于組裝一步,參數(shù)簡(jiǎn)單,用戶只需要提供排序好的BAM文件即可,這些文件,事實(shí)上可以通過(guò)前幾天推的 Hisat-build 和 Hisat-align 插件來(lái)獲取。需要注意的有三點(diǎn):

  1. 參考物種基因結(jié)構(gòu)注釋是可選的

  2. 設(shè)置輸出目錄而不是輸出文件,因?yàn)榻M裝時(shí)是單個(gè)bam文件單獨(dú)組裝,最后再進(jìn)行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取,可直接使用 TBtools 的 GXF Sequence Extract,請(qǐng)參考公號(hào)前述推文)

  3. 并行線程數(shù),應(yīng)該注意,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價(jià)。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運(yùn)行,但windows系統(tǒng)限制,所以只能單線程,且速度上不來(lái)。這沒(méi)關(guān)系,我們可以多個(gè)文件同時(shí)組裝,這樣也就只需要使用stringtie的單線程模式,畢竟很多時(shí)候,我們并不可能做一個(gè)樣品的轉(zhuǎn)錄組測(cè)序和組裝 - PS:windows下可能會(huì)慢不少,比如6G的轉(zhuǎn)錄組,估計(jì)組裝時(shí)間大概要到 1個(gè)小時(shí),在我的筆記本上。不過(guò)同時(shí)跑2個(gè),那么也是1個(gè)小時(shí)嘛..)
    組裝結(jié)果大體如下,我做了兩個(gè)實(shí)際數(shù)據(jù)的,

StringTie Quantify 插件的使用

使用簡(jiǎn)單,用戶需要的注意的幾乎只有三點(diǎn):

  1. 排序好的BAM文件

  2. 一個(gè)必須的基因結(jié)構(gòu)注釋文件,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果。

  3. ReadLength, 這一參數(shù)即測(cè)序讀長(zhǎng)。因?yàn)镾tringTie計(jì)算的其實(shí)是Coverage,并沒(méi)有讀段計(jì)數(shù)這一步。常見(jiàn)的操作是簡(jiǎn)單地基于Coverage反推raw counts。于是read length成為必要。

整體上會(huì)輸出六個(gè)矩陣,具體大伙自己看名字就知道是啥。

即,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM,TPM矩陣。可查看其中某個(gè)。

注意到,我前面做StringTie Assembly的時(shí)候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實(shí)上是沒(méi)有被組裝出來(lái)的,一般是覆蓋率極低),而MSTRGXXXX等為已有注釋中被當(dāng)前樣品覆蓋以及新注釋出來(lái)的基因。
PS:四個(gè)插件將會(huì)一并上線至插件商店,暫時(shí)票價(jià)應(yīng)該會(huì)定位 100,打包估計(jì) 365,具體再定。

感興趣的,想上車的,請(qǐng)參考前述《Plugin | 高速版插件商店!我又有一個(gè)絕妙的 idea》推文。

寫(xiě)在最后

忙,簡(jiǎn)單的推文斷續(xù)寫(xiě)了幾天。現(xiàn)在是大年三十晚上九點(diǎn),也算是在新春到來(lái)之時(shí),了卻一個(gè)鬼點(diǎn)子。
在此祝大伙新春快樂(lè),牛年大吉!

搞個(gè)活動(dòng)

評(píng)論區(qū)點(diǎn)贊前三,送新春現(xiàn)金紅包¥66.66,¥33.33¥11.11 !

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多