亚洲欧美国产精品粉嫩|亚洲精品精品无码专区|国产在线无码精品电影网|午夜无码久久久久久国产|亚洲国产精品一区二区动图|国产在线精品一区在线观看|欧美伊人久久久久久久久影院|中文字幕日韩av在线一区二区

合肥金星智控科技股份有限公司
宣傳

位置:中冶有色 >

有色技術(shù)頻道 >

> 探礦技術(shù)

> 基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法

基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法

983   編輯:中冶有色技術(shù)網(wǎng)   來源:哈爾濱師范大學(xué)  
2023-10-20 13:42:21
一種基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法

1.本發(fā)明屬于物聯(lián)網(wǎng)安全領(lǐng)域,具體涉及一種基于梯度提升機(jī)的輕量級入侵檢測方法。

背景技術(shù):

2.物聯(lián)網(wǎng)是互聯(lián)網(wǎng)基礎(chǔ)上的延伸,由多種智能傳感器、智能節(jié)點(diǎn)等設(shè)備組成。物聯(lián)網(wǎng)設(shè)備可以在沒有人為干預(yù)的情況下完成數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)存儲、數(shù)據(jù)傳遞等任務(wù), 實(shí)現(xiàn)物與物、物與人的泛在連接,使得現(xiàn)實(shí)世界和信息世界更加緊密的聯(lián)系在一起。物聯(lián)網(wǎng)的出現(xiàn)產(chǎn)生了巨大的商業(yè)價值并且為現(xiàn)有領(lǐng)域提供了更多的可能,例如智能家居、智慧城市、醫(yī)療4.0、工業(yè)4.0等等。因此,物聯(lián)網(wǎng)技術(shù)被認(rèn)為是最重要的新興技術(shù),將從根本上改變?nèi)藗兊纳?。預(yù)計全球的物聯(lián)網(wǎng)設(shè)備將在2025年達(dá)到750億個。

3.物聯(lián)網(wǎng)無處不在,海量數(shù)據(jù)被物聯(lián)網(wǎng)設(shè)備收集、處理、分析。然而,當(dāng)前的物聯(lián)網(wǎng)設(shè)備在算力、存儲等資源上受到較大限制,使得其難以運(yùn)行常規(guī)的網(wǎng)絡(luò)安全系統(tǒng)。并且,由于物聯(lián)網(wǎng)設(shè)備沒有統(tǒng)一的設(shè)計標(biāo)準(zhǔn),使得物聯(lián)網(wǎng)設(shè)備在受到網(wǎng)絡(luò)攻擊時,物聯(lián)網(wǎng)設(shè)備的機(jī)密性、完整性和可用性極易被破壞。

4.入侵檢測系統(tǒng)(intrusion detection system,ids)已經(jīng)發(fā)展成為保護(hù)網(wǎng)絡(luò)設(shè)備免遭攻擊的重要措施。ids通過檢測網(wǎng)絡(luò)流量的特征對其進(jìn)行分類,并在檢測到攻擊時自動發(fā)出警告。ids按檢測方式分為基于特征的入侵檢測系統(tǒng)(signature-based intrusion detection system,sids)和基于異常的入侵檢測系統(tǒng)(anomaly-based intrusion detection system,aids)。sids通過檢索已知攻擊的特征庫中的記錄判斷網(wǎng)絡(luò)流量是否為攻擊。aids通過學(xué)習(xí)正常網(wǎng)絡(luò)流量的特征來判斷當(dāng)前網(wǎng)絡(luò)流量和正常網(wǎng)絡(luò)流量之間的差異。aids可基于統(tǒng)計學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法構(gòu)建?;跈C(jī)器學(xué)習(xí)和深度學(xué)習(xí)的ids對于已知攻擊和未知攻擊都能夠獲得較好的檢測效果,并且易于設(shè)計和搭建。相較于深度學(xué)習(xí),機(jī)器學(xué)習(xí)不需要非常大的數(shù)據(jù)集和計算成本即可完成訓(xùn)練。相較于機(jī)器學(xué)習(xí),深度學(xué)習(xí)能夠更好地處理數(shù)量大和維度高的數(shù)據(jù)。并且,深度學(xué)習(xí)因為不需要特征工程,所以能夠節(jié)省資源和時間。

5.相較于傳統(tǒng)的互聯(lián)網(wǎng)設(shè)備,物聯(lián)網(wǎng)設(shè)備只能提供有限的算力、存儲、電能等資源,因此對ids的輕量化程度有更高的要求。然而,以往對于ids的研究大多局限于提升檢測能力,使得所提出的ids不能完全適用于資源受限的物聯(lián)網(wǎng)設(shè)備。所以本發(fā)明從輕量級的角度出發(fā),期望將輕量級的機(jī)器學(xué)習(xí)算法和特征提取算法相結(jié)合來提高ids的輕量化程度,以使其更加適用于物聯(lián)網(wǎng)。

技術(shù)實(shí)現(xiàn)要素:

6.本發(fā)明將輕量級梯度提升機(jī)(light gradient boosting machine,lightgbm)與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, cnn)相結(jié)合,提出了一種輕量級入侵檢測方法cnn-lightgbm,包括數(shù)據(jù)預(yù)處理模塊,特征提取模塊和分類模塊,其結(jié)構(gòu)如圖1所示。

首先,使用獨(dú)熱編碼和最大最小歸一化對數(shù)據(jù)進(jìn)行預(yù)處理。然后,使用一維卷積神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行特征提取,以降低特征維度。最后,使用輕量級梯度提升機(jī)進(jìn)行分類,以檢測網(wǎng)絡(luò)流量數(shù)據(jù)所屬的類型,如二分類檢測中的正常網(wǎng)絡(luò)流量和攻擊網(wǎng)絡(luò)流量。

7.物聯(lián)網(wǎng)中的網(wǎng)絡(luò)流量數(shù)據(jù)通常含有離散型特征。內(nèi)容是數(shù)值的離散型特征實(shí)際上沒有大小意義,會導(dǎo)致機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法學(xué)習(xí)到無意義的信息。內(nèi)容不是數(shù)值的離散型特征不能作為所提模型的輸入數(shù)據(jù)。因此需要使用獨(dú)熱編碼將離散型特征映射為沒有大小意義的連續(xù)型特征。此外,物聯(lián)網(wǎng)中的網(wǎng)絡(luò)流量數(shù)據(jù)通常還存在量綱不統(tǒng)一的問題。當(dāng)不同量綱的特征輸入到神經(jīng)網(wǎng)絡(luò)中時,很容易出現(xiàn)梯度消失和收斂緩慢的問題。因此需要使用最大最小歸一化統(tǒng)一不同特征之間的量綱。

8.數(shù)據(jù)降維是指通過某種映射方法將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中,從而降低計算成本并且提升分類器的性能。數(shù)據(jù)降維的方法有特征選擇和特征提取。特征選擇從數(shù)據(jù)原始的特征空間中選擇特征組成原始特征空間的子集。特征提取通過發(fā)現(xiàn)特征間的關(guān)系將一個或多個特征映射到一個新的特征上。新型網(wǎng)絡(luò)攻擊絕大多數(shù)都是舊型網(wǎng)絡(luò)攻擊的微小變體。將具有深度結(jié)構(gòu)的深度學(xué)習(xí)作為特征提取算法能夠自動學(xué)習(xí)不同類型的網(wǎng)絡(luò)流量數(shù)據(jù)之間的微小差別,從而降低特征維度,提升ids的準(zhǔn)確率。cnn是一種前饋人工神經(jīng)網(wǎng)絡(luò),通常使用有監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。cnn已被用于識別、檢測和分類一維、二維甚至三維數(shù)據(jù)中的模式或?qū)ο?。cnn能夠從圖像這類高維數(shù)據(jù)中提取有效信息產(chǎn)生更具代表性的低維數(shù)據(jù),從而降低計算復(fù)雜度并且提升分類算法的分類性能。權(quán)值共享機(jī)制使得cnn有著相較于其它人工神經(jīng)網(wǎng)絡(luò)更少的參數(shù)量。

9.入侵檢測本質(zhì)上是對網(wǎng)絡(luò)流量數(shù)據(jù)的分類,因此分類算法的優(yōu)劣對于入侵檢測系統(tǒng)檢測效果的高低有著至關(guān)重要的影響。雖然如梯度提升決策樹(gradient boosting decision tree,gbdt)和xgboost這樣的傳統(tǒng)boosting算法有著較高的效率,但是不能很好地高效處理大規(guī)模和高復(fù)雜度的物聯(lián)網(wǎng)環(huán)境下產(chǎn)生的海量高維網(wǎng)絡(luò)流量數(shù)據(jù)。過往的研究表明,gbdt的主要耗時是在構(gòu)建決策樹時對于每一個特征都需要掃描所有的樣本來尋找最優(yōu)分割點(diǎn)。為了解決此問題,微軟在2017年提出了基于梯度提升決策樹的lightgbm,并被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域,能夠完成分類、回歸和排序等任務(wù)。

附圖說明

10.圖1為本發(fā)明的整體流程圖。

具體實(shí)施方式

11.數(shù)據(jù)預(yù)處理模塊由獨(dú)熱編碼和最大最小歸一化算法組成。獨(dú)熱編碼的原理是使用n位狀態(tài)寄存器來對n種狀態(tài)進(jìn)行編碼。每個狀態(tài)都有獨(dú)立的寄存器位,并且在任何時刻只有一位寄存器有效。例如,某個離散型特征有三種類別,分別為“a、b、c”。對其使用獨(dú)熱編碼處理后得到“[1,0,0]、[0,1,0]、[0,0,1]”。最大最小歸一化將所有特征的量綱縮放至[0,1],并且不改變特征的分布情況,如公式(1)所示。

[0012]

??

(1)

其中x為特征的原始值,x

norm

是歸一化后的值,x

min

是這個特征的最小值,x

max

是這個特征的最大值。

[0013]

特征提取模塊由cnn算法組成。cnn由卷積層和池化層構(gòu)成。卷積層通過多個不同的卷積核提取不同的特征,是cnn的核心組成部分。假設(shè)卷積層的輸入為x,第i層的特征圖為mi(其中m0=x),則卷積層可表示為mi=f(m

i-1

θwi+bi)。其中,f(x)為激活函數(shù),wi為第i層的卷積核的權(quán)重向量,bi為第i層的偏移向量,θ為卷積操作。尺寸小于m

i-1

的尺寸的卷積核在m

i-1

上滑動,使得僅用一組wi即可完成對m

i-1

的學(xué)習(xí)。因此,cnn實(shí)現(xiàn)了權(quán)值共享,大幅減少了參數(shù)量。池化層根據(jù)指定的采樣規(guī)則對特征圖采樣。采樣規(guī)則通常是最大池化或平均池化。最大池化指的是在窗口內(nèi)的特征圖中選取最大的元素。平均池化指的是將窗口內(nèi)的特征圖中的元素相加后求平均值。這兩種池化規(guī)則都能夠降低特征維度,從而減少數(shù)據(jù)量以提升計算速度,并且能夠緩解算法的過擬合問題。假設(shè)池化層的輸入為mi,輸出為m

i+1

,則卷積層可表示為m

i+1

=



(mi)。其中,



為指定的采樣規(guī)則。

[0014]

分類模塊由lightgbm算法組成。lightgbm使用如下四種辦法來降低時空復(fù)雜度:直方圖算法、基于梯度的單邊采樣(gradient-based one-side sampling,goss)算法、互斥特征捆綁(exclusive feature bundling,efb)算法和按葉子生長的決策樹生長策略。

[0015]

直方圖算法可以有效減少內(nèi)存消耗和加快訓(xùn)練速度。直方圖算法將連續(xù)的特征離散化為多個整數(shù),即分桶,比如[0,0.2)



0,[0.2,0.4)

?→

1。在訓(xùn)練過程中根據(jù)特征所在的桶對其進(jìn)行梯度累加和個數(shù)統(tǒng)計。最后根據(jù)直方圖尋找最優(yōu)的分割點(diǎn),而不需要掃描特征所有的值。使得尋找最優(yōu)分割點(diǎn)的復(fù)雜度從o(#sample

×

#feature)減少為o(#bin

×

#feature)。

[0016]

減少樣本數(shù)和特征數(shù)可以有效減少模型的時間復(fù)雜度。對于減少樣本數(shù),傳統(tǒng)方法是將權(quán)重較小的樣本舍棄。然而gbdt中的樣本并沒有權(quán)重。對于減少特征數(shù),傳統(tǒng)方法是基于特征存在冗余的前提,如主成分分析法。實(shí)際上,特征往往不存在冗余。因此,lightgbm使用goss和efb來分別降低樣本數(shù)和特征數(shù)。goss的主要思想是在計算信息增益時,大梯度樣本相較于小梯度樣本會有更大的貢獻(xiàn),因此不需要對所有的樣本計算梯度。goss將樣本按照梯度降序排序,之后保留排序結(jié)果前a%的樣本,并且在剩下的小梯度樣本里隨機(jī)保留b%。為了保證數(shù)據(jù)分布不被改變,在計算信息增益時將小梯度樣本的梯度放大(1-a)/b倍。efb的主要思想是將互斥的特征捆綁為一個特征束以減少特征掃描的數(shù)量。因為將互斥的特征進(jìn)行綁定是一個np-hard問題,并且很多特征即使不完全互斥也很少同時取非零值,所以efb并不要求被捆綁的特征之間嚴(yán)格互斥,而是只需要小于設(shè)定的沖突比率即可。efb使得直方圖構(gòu)建的復(fù)雜度由o(#sample

×

#feature)減少為o(#sample

×

#bundle),其中#bundle遠(yuǎn)小于#feature。

[0017]

大多數(shù)的gbdt使用低效的按層生長的決策樹生長策略。按層生長策略不加區(qū)分的分裂同一層的所有葉子結(jié)點(diǎn),因此會因為結(jié)點(diǎn)增益過小而增加很多不必要的掃描和分裂。因此lightgbm使用了按葉子生長的決策樹生長策略。按葉子生長策略僅分裂當(dāng)前所有葉子結(jié)點(diǎn)中分裂增益最大的葉子結(jié)點(diǎn),在減少計算量的同時最大化地降低了模型損失。同時,lightgbm限制了決策樹的最大深度,以防止按葉子生長策略導(dǎo)致的過擬合。

[0018] 如公式(2)所示,cnn的時間復(fù)雜度為t

cnn

,其空間復(fù)雜度為s

cnn

。

[0019]

??

(2) 其中l(wèi)代表第l層。d代表總層數(shù)。p代表卷積核輸出的特征圖的長度。k代表卷積核的長度。c

l-1

是該層的輸入通道數(shù)。c

l

是該層的輸出通道數(shù)。顯然,cnn的時空復(fù)雜度與參數(shù)量有關(guān)。而cnn通過權(quán)值共享機(jī)制能夠大幅減少參數(shù)量,從而大幅降低時空復(fù)雜度。lightgbm的時空復(fù)雜度本質(zhì)上是決策樹的時空復(fù)雜度。傳統(tǒng)決策樹的時間復(fù)雜度為o(s

×

log(s)



f),其空間復(fù)雜度為o(p)。其中p代表結(jié)點(diǎn)數(shù)。goss將樣本數(shù)從s降低至s’。直方圖算法和efb將特征數(shù)從f降低至f’。按葉子生長的決策樹生長策略減少了結(jié)點(diǎn)的分裂次數(shù),因此將結(jié)點(diǎn)數(shù)從p降低至p’。因此lightgbm的時間復(fù)雜度為o(r

×s’×

log(s’)

×

f’),其空間復(fù)雜度為o(r

×

p’)。其中r代表lightgbm所構(gòu)建的決策樹的數(shù)量。因此,lightgbm中的決策樹有著低于傳統(tǒng)決策樹的時空復(fù)雜度,從而使得lightgbm更加輕量化。此外,lightgbm會根據(jù)輸入的數(shù)據(jù)動態(tài)構(gòu)建決策樹。因此,將cnn與lightgbm相結(jié)合,能夠降低lightgbm的時空復(fù)雜度。

[0020]

cnn-lightgbm的時空復(fù)雜度是cnn和lightgbm的時空復(fù)雜度之和。如公式(3)所示,cnn-lightgbm的時間復(fù)雜度為t

cnn-lightgbm

,其空間復(fù)雜度為s

cnn-lightgbm



[0021]

??

(3) 上述實(shí)施方法為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述方法的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化, 均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。技術(shù)特征:

1.一種基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法,其特征在于包括數(shù)據(jù)預(yù)處理模塊、特征提取模塊、分類模塊。2.根據(jù)權(quán)利要求1所述的基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法,其特征在于,通過數(shù)據(jù)預(yù)處理模塊,利用獨(dú)熱編碼和最大最小歸一化算法將物聯(lián)網(wǎng)中包含離散型特征和存在量綱不統(tǒng)一問題的網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)化為適合作為機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法的輸入的數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法,其特征在于,通過特征提取模塊,利用卷積神經(jīng)網(wǎng)絡(luò)將物聯(lián)網(wǎng)中的網(wǎng)絡(luò)流量數(shù)據(jù)所包含的高維特征映射為低維特征,從而降低計算成本并且提升分類模塊的性能。4.根據(jù)權(quán)利要求1所述的基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法,其特征在于,通過分類模塊,利用輕量級梯度提升機(jī)對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分類,以檢測網(wǎng)絡(luò)攻擊。

技術(shù)總結(jié)

本發(fā)明涉及一種基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法。物聯(lián)網(wǎng)設(shè)備被廣泛應(yīng)用于各個領(lǐng)域。然而其有限的算力、存儲等資源使得其極易受到攻擊并且難以得到有效的保護(hù)。傳統(tǒng)的入侵檢測系統(tǒng)側(cè)重于高準(zhǔn)確率和低誤報率,使得其由于過高的時空復(fù)雜度導(dǎo)致難以部署于物聯(lián)網(wǎng)設(shè)備中。針對上述問題,本發(fā)明提出了基于輕量級梯度提升機(jī)的物聯(lián)網(wǎng)入侵檢測模型。首先,使用獨(dú)熱編碼和最大最小歸一化對數(shù)據(jù)進(jìn)行預(yù)處理。然后,使用一維卷積神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行特征提取,以降低特征維度。最后,使用輕量級梯度提升機(jī)進(jìn)行分類,以檢測網(wǎng)絡(luò)流量數(shù)據(jù)所屬的類型,如二分類檢測中的正常網(wǎng)絡(luò)流量和攻擊網(wǎng)絡(luò)流量。量和攻擊網(wǎng)絡(luò)流量。量和攻擊網(wǎng)絡(luò)流量。

技術(shù)研發(fā)人員:汪洋 趙國生 王健

受保護(hù)的技術(shù)使用者:哈爾濱師范大學(xué)

技術(shù)研發(fā)日:2021.12.20

技術(shù)公布日:2022/3/11
聲明:
“基于梯度提升機(jī)的輕量級物聯(lián)網(wǎng)入侵檢測方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)
分享 0
         
舉報 0
收藏 0
反對 0
點(diǎn)贊 0
全國熱門有色金屬技術(shù)推薦
展開更多 +

 

中冶有色技術(shù)平臺微信公眾號
了解更多信息請您掃碼關(guān)注官方微信
中冶有色技術(shù)平臺微信公眾號中冶有色技術(shù)平臺

最新更新技術(shù)

報名參會
更多+

報告下載

第二屆中國微細(xì)粒礦物選礦技術(shù)大會
推廣

熱門技術(shù)
更多+

衡水宏運(yùn)壓濾機(jī)有限公司
宣傳
環(huán)磨科技控股(集團(tuán))有限公司
宣傳

發(fā)布

在線客服

公眾號

電話

頂部
咨詢電話:
010-88793500-807
專利人/作者信息登記