本發(fā)明公開了一種海量DNA測序數(shù)據(jù)無損快速壓縮平臺,涉及DNA測序數(shù)據(jù)壓縮平臺領(lǐng)域,該平臺將輸入FASTQ數(shù)據(jù)分割成元數(shù)據(jù)、堿基和質(zhì)量分數(shù)三個數(shù)據(jù)流,并根據(jù)它們自身特點分別獨立地壓縮:去除元數(shù)據(jù)流中的重復(fù)片段并使用LZMA算法進行壓縮;對質(zhì)量分數(shù)流使用游程編碼和算術(shù)編碼壓縮;使用匹配工具BWA將短讀與參考基因組比對,提取比對結(jié)果中的堿基流表達信息并使用LZMA算法、游程編碼、算術(shù)編碼進行壓縮。該平臺針對DNA序列本身具有的冗余性進行壓縮,減少了壓縮所需的存儲空間。
聲明:
“海量DNA測序數(shù)據(jù)無損快速壓縮平臺” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)