本發(fā)明屬于生物信息領(lǐng)域,涉及一種DNA測序數(shù)據(jù)的標準存儲方式FASTQ格式文件無損壓縮的方法。首先,將原FASTQ文件按序列進行提取,第三行丟棄。然后,將提取的序列按照行重新生成新的文件,分別為保存第一行的序列標志文件、保存第二行的序列數(shù)據(jù)文件和保存第四行的質(zhì)量評分文件。其次,對第二步生成的三個文件分別利用進行壓縮處理:對序列數(shù)據(jù)文件進行壓縮、對質(zhì)量評分文件進行壓縮、將序列標志文件進行處理之后再進行壓縮。最后,對第三步生成的壓縮文件,用tar將其壓縮為一個文件,并且刪除中間過程文件。通過本發(fā)明方法可以對下一代測序技術(shù)產(chǎn)生的海量DNA測序數(shù)據(jù)進行經(jīng)濟性存儲和快速傳輸。
聲明:
“FASTQ格式文件無損壓縮的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)