好久沒有更新了,最近的感受:沉淀的結(jié)果是,驀然回首,一無所有。負(fù)重前行,走的更遠(yuǎn),輕裝上陣,原地打轉(zhuǎn)。用通俗的話講就是:不寫公眾號,就可以有更多的時(shí)間積累和學(xué)習(xí),其實(shí)是空余時(shí)間刷抖音。所以,有的沒的,都要寫一寫,有內(nèi)容了就寫干活,沒內(nèi)容了就灌灌水。反正我喜歡看別人灌水的文章,尤其是搞技術(shù)的灌水,很有代入感。后之視今亦猶今之視昔,我見觀音觀自在,我見真武見真我。雜合度,就是雜合基因型所占的比例,這個(gè)數(shù)值可以反應(yīng)兩個(gè)問題:比如一個(gè)群體的數(shù)據(jù),做GWAS分析,應(yīng)該是純合的群體,出現(xiàn)了雜合樣本,是需要?jiǎng)h掉的。比如一個(gè)群體的數(shù)據(jù),做GWAS分析,不是純合群體,也不是雜合群體,可以把雜合度按照正態(tài)分布的格式,計(jì)算平均值和標(biāo)準(zhǔn)差,然后刪除三倍標(biāo)準(zhǔn)差之外的樣本。寫到這里,不給代碼有點(diǎn)不講究:A <- rnorm(1000,0,1)outlier_above <- which(A > mean(A) + 3*sd(A))outlier_below <- which(A < mean(A) - 3*sd(A))del_id = c(outlier_above,outlier_below)
第一列:家系ID 第二列:個(gè)體ID 第三列:觀測的純合位點(diǎn)數(shù) 第四列:期望的純合位點(diǎn)數(shù) 第五列:總個(gè)體數(shù) 第六列:F值(越小,說明雜合度越高) 飛哥吐槽:het的值是F值,這個(gè)明明是存合度,為何會叫雜合度,明明值越大越純合。這里,也可以手動(dòng)計(jì)算:F =(O-E)/(N-E)純系群體,做GWAS分析,可以對雜合度進(jìn)行質(zhì)控,比如小于0.3的認(rèn)為是雜合群體,可以刪除。 自然群體,做GWAS分析,可以對雜合度進(jìn)行質(zhì)控,認(rèn)為群體的雜合度應(yīng)該是合理區(qū)間,可以用三倍標(biāo)準(zhǔn)差的形式進(jìn)行離群樣本的質(zhì)控,比如計(jì)算的F值,通過上面提供的函數(shù),剔除樣本。
|