小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

再次說明md5檢查文件完整度的重要性

 健明 2021-07-14

最近服務(wù)器又停電,發(fā)現(xiàn)幾個(gè)星期前提交的項(xiàng)目失敗了幾個(gè)樣本:

P5_DCIS 
P2_Norm 
P4_DCIS 
P2_DCIS
P9_DCIS 
P10_Norm
P9_Norm

所以我就去檢查 clean 數(shù)據(jù)

gunzip -t P10_Norm_Exome_1_val_1.fq.gz
gunzip -t P10_Norm_Exome_2_val_2.fq.gz
gunzip -t P2_DCIS_Exome_1_val_1.fq.gz
gunzip -t P2_DCIS_Exome_2_val_2.fq.gz
gunzip -t P2_Norm_Exome_1_val_1.fq.gz
gunzip -t P2_Norm_Exome_2_val_2.fq.gz
gunzip -t P4_DCIS_Exome_1_val_1.fq.gz
gunzip -t P4_DCIS_Exome_2_val_2.fq.gz
gunzip -t P5_DCIS_Exome_1_val_1.fq.gz
gunzip -t P5_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_DCIS_Exome_1_val_1.fq.gz
gunzip -t P9_DCIS_Exome_2_val_2.fq.gz
gunzip -t P9_Norm_Exome_1_val_1.fq.gz
gunzip -t P9_Norm_Exome_2_val_2.fq.gz

發(fā)現(xiàn)的確是clean數(shù)據(jù)有問題,如下:

gzipP10_Norm_Exome_2_val_2.fq.gzinvalid compressed data--format violated
gzipP1_DCIS_Exome_1_val_1.fq.gzinvalid compressed data--format violated
gzipP2_DCIS_Exome_2_val_2.fq.gzinvalid compressed data--format violated
gzipP2_Norm_Exome_1_val_1.fq.gzinvalid compressed data--format violated

那這樣就有兩種可能,第一是Trim Galore 運(yùn)行失敗,第二是raw 數(shù)據(jù)有問題

首先檢查log日志,發(fā)現(xiàn)6個(gè)樣本都是Trim Galore 運(yùn)行失敗,而最后的P9_Norm是raw數(shù)據(jù)有問題

那么就對(duì)P9_Norm是raw數(shù)據(jù)重新運(yùn)行 Trim Galore ,報(bào)錯(cuò)如下:

This is cutadapt 1.18 with Python 2.7.16
Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz
Processing reads on 1 core in single-end mode ...
cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76').
The second sequence description must be either empty or equal to the first description.

Cutadapt terminated with exit signal: '256'.
Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...

然后檢查了:

$zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503
@SRR6269872.30075503 30075503 68 length=76
@SRR6269872.30075503 30075503 68 length=76

gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated

沒辦法理解為什么兩條一模一樣的reads會(huì)出現(xiàn)在這個(gè)fq文件里面。

檢查原始md5值是:MD5 (P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033
檢查拷貝的md5值是:95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz

既然同樣的文件md5值不一樣,所以確定是拷貝的時(shí)候出現(xiàn)了問題。

順便檢查了 右端測(cè)序數(shù)據(jù):

$md5sum  P9_Norm_Exome_2.fastq.gz
426bcc6ccb1168c69624170443d23e29  P9_Norm_Exome_2.fastq.gz

(qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz 
MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29

好吧,也就是說,重新上傳那個(gè)拷貝失誤的數(shù)據(jù)即可。

但其實(shí)我并不明白為什么gz格式的fq文件拷貝會(huì)出現(xiàn)意外?一條reads會(huì)出現(xiàn)兩次?

      ■ 

全國巡講約你


第1-10站北上廣深杭,西安,鄭州, 吉林,武漢和成都(全部結(jié)束)

七月份我們不外出,只專注單細(xì)胞!

系統(tǒng)學(xué)習(xí)單細(xì)胞分析,報(bào)名生信技能樹的線下培訓(xùn),手慢無

一年一度的生信技能樹單細(xì)胞線下培訓(xùn)班火熱招生

全國巡講第11站-港珠澳專場(生信技能樹爆款入門課)

全國巡講第12站-北京(生信技能樹爆款入門課)

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多