最近服務(wù)器又停電,發(fā)現(xiàn)幾個(gè)星期前提交的項(xiàng)目失敗了幾個(gè)樣本:
P5_DCIS P2_Norm P4_DCIS P2_DCIS P9_DCIS P10_Norm P9_Norm
所以我就去檢查 clean 數(shù)據(jù) gunzip -t P10_Norm_Exome_1_val_1.fq.gz gunzip -t P10_Norm_Exome_2_val_2.fq.gz gunzip -t P2_DCIS_Exome_1_val_1.fq.gz gunzip -t P2_DCIS_Exome_2_val_2.fq.gz gunzip -t P2_Norm_Exome_1_val_1.fq.gz gunzip -t P2_Norm_Exome_2_val_2.fq.gz gunzip -t P4_DCIS_Exome_1_val_1.fq.gz gunzip -t P4_DCIS_Exome_2_val_2.fq.gz gunzip -t P5_DCIS_Exome_1_val_1.fq.gz gunzip -t P5_DCIS_Exome_2_val_2.fq.gz gunzip -t P9_DCIS_Exome_1_val_1.fq.gz gunzip -t P9_DCIS_Exome_2_val_2.fq.gz gunzip -t P9_Norm_Exome_1_val_1.fq.gz gunzip -t P9_Norm_Exome_2_val_2.fq.gz
發(fā)現(xiàn)的確是clean數(shù)據(jù)有問題,如下: gzip: P10_Norm_Exome_2_val_2.fq.gz: invalid compressed data--format violated gzip: P1_DCIS_Exome_1_val_1.fq.gz: invalid compressed data--format violated gzip: P2_DCIS_Exome_2_val_2.fq.gz: invalid compressed data--format violated gzip: P2_Norm_Exome_1_val_1.fq.gz: invalid compressed data--format violated
那這樣就有兩種可能,第一是Trim Galore 運(yùn)行失敗,第二是raw 數(shù)據(jù)有問題 首先檢查log日志,發(fā)現(xiàn)6個(gè)樣本都是Trim Galore 運(yùn)行失敗,而最后的P9_Norm是raw數(shù)據(jù)有問題 那么就對(duì)P9_Norm是raw數(shù)據(jù)重新運(yùn)行 Trim Galore ,報(bào)錯(cuò)如下: This is cutadapt 1.18 with Python 2.7.16 Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz Processing reads on 1 core in single-end mode ... cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76'). The second sequence description must be either empty or equal to the first description.
Cutadapt terminated with exit signal: '256'. Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...
然后檢查了: $zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503 @SRR6269872.30075503 30075503 68 length=76 @SRR6269872.30075503 30075503 68 length=76
gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated
沒辦法理解為什么兩條一模一樣的reads會(huì)出現(xiàn)在這個(gè)fq文件里面。 檢查原始md5值是:MD5 (P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033 檢查拷貝的md5值是:95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz 既然同樣的文件md5值不一樣,所以確定是拷貝的時(shí)候出現(xiàn)了問題。 順便檢查了 右端測(cè)序數(shù)據(jù): $md5sum P9_Norm_Exome_2.fastq.gz 426bcc6ccb1168c69624170443d23e29 P9_Norm_Exome_2.fastq.gz
(qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29
好吧,也就是說,重新上傳那個(gè)拷貝失誤的數(shù)據(jù)即可。 但其實(shí)我并不明白為什么gz格式的fq文件拷貝會(huì)出現(xiàn)意外?一條reads會(huì)出現(xiàn)兩次? ■ ■ ■ 第1-10站北上廣深杭,西安,鄭州, 吉林,武漢和成都(全部結(jié)束) 七月份我們不外出,只專注單細(xì)胞!
系統(tǒng)學(xué)習(xí)單細(xì)胞分析,報(bào)名生信技能樹的線下培訓(xùn),手慢無 。 一年一度的生信技能樹單細(xì)胞線下培訓(xùn)班火熱招生 全國巡講第11站-港珠澳專場(生信技能樹爆款入門課) 全國巡講第12站-北京(生信技能樹爆款入門課)
|