我們需要了解“人類基因組計劃”和“千人基因組計劃”以及2017-12-28央視宣布我國啟動“中國10萬人基因組計劃” ??人類細(xì)胞內(nèi)共有22對常染色體,2對性染色體,共24條染色體。人體有23對,46條染色體,但卻測定24條染色體.說明有部分染色體無需全測,這很自然的就聯(lián)想到“常染色體每對是互補(bǔ)配對”的性質(zhì),說明,每對染色體中的兩條,基因相同,只需測一條就可知另一條的基因。如果是這樣的話,需測22對常染色體,那么剩下的就自然是兩條性染色體,因為X染色體與Y染色體構(gòu)造有所不同(Y染色體比X少一部分),所以兩條都要測。 ??然后有人想到了同源染色體上等位基因的情況: ??等位基因(allele)又作allelomorph.可能出現(xiàn)在染色體某特定座位上的兩個或多個基因中的一個。若一個座位上的基因以兩個以上的狀態(tài)存在,便稱為復(fù)等位基因。若成對的等位基因中兩個成員完全相同,則該個體對此性狀來說成為純合子。若兩個等位基因各不相同,則該個體對該性狀來說是雜合子。由于等位基因都對應(yīng)同一性狀,所以只要測其中一個,其等位基因會作為特殊基因單獨測序,但不作為人類基因組計劃另外測定。同源染色體具體的序列不一樣,但是結(jié)構(gòu)是一樣的,所以沒必要多測。也就是說人類基因組計劃要搞清楚的是基因片段與性狀的關(guān)系,重點不在堿基序列。 接下來我們回顧以下測序過程:引出其他問題 ![]() PCR+測序 ![]() 測序得到兩條read
??為了得到答案,翻書,谷歌,看原理視屏依然沒有解決問題,于是在熟練Linux和各文件格式之后,我找了真實fq數(shù)據(jù)中的一對reads一探究竟。 ![]() 圖1:fq_reads ??根據(jù)原理,我們可以知道上圖中的fq1和fq2是實際測序得到的read1和read2。 注意:Excel排版原因?qū)ead1和read2顯示長短不一,經(jīng)過計算實際均為150個堿基。 步驟2:然后在得到原始sam/bam文件中找到這對reads,并列出堿基觀察(: ![]() 圖2:sam/bam_reads ??仔細(xì)肉眼比對圖二和圖一,發(fā)現(xiàn)bam文件中reads2已被轉(zhuǎn)義并且倒序排列。為什么這么確定是倒序過來的呢?細(xì)心的人會發(fā)現(xiàn)reads的質(zhì)量值是倒過來的。到此問題2已經(jīng)得到的解釋。
我將圖2中的重復(fù)堿基標(biāo)紅,將這兩條序列的bam文件導(dǎo)入IGV中可視化: ![]() 圖3:IGV可視化 圖3中,非常直觀看到兩條帶方向箭頭的灰色條帶(read1和read2)的比對到單序列的參考基因組(下方彩色條帶)。 ??為了更加直觀,讓自己死心(我也是服了自己那顆躁動的心),我把對應(yīng)參考序列也列出來了,模擬了一下IGV的比對情況,如圖: ![]() 圖4:比對 依然要總結(jié)一下: ??雙端測序下機(jī)數(shù)據(jù)中得到的read1和read2是兩條互補(bǔ)鏈insertsize中方向相對的兩條序列,再比對到單鏈的參考基因組之前會先將其中一條read轉(zhuǎn)義,然后進(jìn)行比對,所以比對得到的SAM和BAM文件中read1和read2有一條是被轉(zhuǎn)了的。 ??全劇終。。。。。。 參考: ??1.生信技能樹健明大牛線下培訓(xùn) ??2.基因課視屏截圖 ??3.陳巍學(xué)基因 |
|
|