小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

從TCGA數(shù)據(jù)中提取lncRNA(這是一個(gè)找bug教程)

 微笑如酒 2018-09-30

從果子老師的從TCGA數(shù)據(jù)中提取lncRNA并進(jìn)行下游分析一文中,我學(xué)到了如何從TCGA表達(dá)譜數(shù)據(jù)中提取RNA。老師的教程已經(jīng)寫的很詳細(xì)了,我再補(bǔ)充一點(diǎn):如何下載GTF注視文件呢?打開終端

wegt -m ftp://ftp./pub/release-90/gtf/homo_sapiens/

然而,一個(gè)bug卡了我一天,這都怪我沒(méi)學(xué)好分子生物學(xué)。本科是學(xué)林學(xué)的,整天在林子里拈花惹草,碩士莫名進(jìn)了一個(gè)癌生物學(xué)濕實(shí)驗(yàn)室,又莫名的成為全實(shí)驗(yàn)室唯一一個(gè)做生信的人。研一把課全翹了留在實(shí)驗(yàn)室寫代碼,偶爾去上課就捧著Mac air躲在班級(jí)最后一排鬼鬼祟祟,我室友后來(lái)說(shuō)發(fā)白光的小蘋果像是在嘲笑老師。
這個(gè)bug是,在結(jié)束果子老師的教程全文后,我將lncRNA和mRNA的表達(dá)譜提出來(lái),把他們的gene symbol 做交集,竟發(fā)現(xiàn)有一萬(wàn)個(gè)重復(fù)的基因。
于是,我回去查bug。

GTF注釋文件如下:

提取mRNA:

mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding')

type是基因,gene_biotype是蛋白質(zhì)編碼基因,這沒(méi)毛病

提取lncRNA:

ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript',transcript_biotype  %in% ncRNA)

這時(shí)將type設(shè)為transcript,果子老師在原文中解釋說(shuō),有一部分編碼基因,轉(zhuǎn)錄成非編碼RNA了,“一個(gè)編碼基因也有可能轉(zhuǎn)錄出非編碼基因的,對(duì)么?”

這句話我拿去問(wèn)師兄們,他們一致說(shuō),怎么可能。

編碼基因(protein_coding gene)在轉(zhuǎn)錄時(shí),外顯子重新編碼到一起,就算有可變剪切體,也是編碼出多種蛋白質(zhì),怎么可能轉(zhuǎn)錄出非編碼RNA呢?

為了驗(yàn)證蛋白質(zhì)編碼基因能否轉(zhuǎn)錄出非編碼RNA,我將代碼改為

ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript', gene_biotype='protein_coding',transcript_biotype  %in% ncRNA)

type=='transcript' 說(shuō)明我要的是轉(zhuǎn)錄本
gene_biotype='protein_coding' 說(shuō)明基因類型要的是蛋白質(zhì)編碼基因
transcript_biotype %in% ncRNA 是要指定的幾種ncRNA類型
這邏輯沒(méi)毛病
跑了之后,



標(biāo)紅處可以看出,蛋白質(zhì)編碼基因,對(duì)應(yīng)著的轉(zhuǎn)錄本類型有且只有processed_transcript

那processed_transcript又是什么呢?

百度肯定不會(huì)告訴我們答案,呵,百度,你對(duì)力量一無(wú)所知。
正確上網(wǎng)后


原網(wǎng)址:http://vega.archive./info/about/gene_and_transcript_types.html


可見,processed_transcript不含ORF,包含LncRNA, ncRNA和unclassified processed transcript。由于transcript_biotype中已經(jīng)含有'sense_overlapping', 'lincRNA', '3prime_overlapping_ncRNA'等很多種,所以我推測(cè), 此處的processed_transcript就是未分類的轉(zhuǎn)錄本。

因此果子老師的那句話是對(duì)的,至少GTF告訴我們,一個(gè)編碼基因也有可能轉(zhuǎn)錄出非編碼基因的。

由于我的分子生物學(xué)底子非常弱,還請(qǐng)各位前輩多多指教。

那么,如果想從TCGA里提lncRNA,不要蛋白質(zhì)編碼基因轉(zhuǎn)錄出來(lái)的該怎么寫

LncRNA_exprSet<- gtf_df %>%  dplyr::filter(type=='transcript',gene_biotype!='protein_coding',                transcript_biotype %in% ncRNA) %>%  dplyr::select(c(gene_name,gene_id,transcript_biotype)) %>%  dplyr::distinct()mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding') %>%  dplyr::select(c(gene_name,gene_id,gene_biotype))


小禮物走一走,來(lái)簡(jiǎn)書關(guān)注我





作者:PriscillaBai
鏈接:https://www.jianshu.com/p/a16be0a79f14
來(lái)源:簡(jiǎn)書
簡(jiǎn)書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多