打開文本圖片集
Application of HG AR-PNN Classifier in Network Intrusion Detection
摘要:人工神經網絡(ANN)大大提高了入侵檢測系統的檢測性能,但對于出現次數較少的攻擊,ANN并不能提供令人滿意的穩定性和檢測率。提出了一種基于超圖Helly性質和算術取余概率神經網絡(HG AR-PNN)的入侵檢測新方法。該方法利用超圖的Helly性質選取最優特征子集,再對最優特征子集進行歸一化算術取余,然后實現概率神經網絡對數據集的訓練。最后,使用KDDCUP’99數據集進行實驗,并對HG AR-PNN算法的性能進行評價。實驗結果表明,對于不常出現的攻擊,HG AR-PNN分類器同樣有著較好的穩定性和較高的分類精度。
Abstract: The learning model which is based on artificial neural network (ANN) can greatly improve the performance of intrusion detection system, but to the less frequent attacks, the ANN can not provide stability and satisfactory detection rate. A new intrusion detection method based on hypergraph Helly property and arithmetic residue probability neural network (HG AR-PNN) is proposed. This method uses hypergraph Helly property to select the best feature subset, and then normalize the optimal feature subset with arithmetic residue, after that, uses the PNN for training the data set. Finally, experiments are carried out using KDDCUP "99 data set, and the performance of HG AR-PNN algorithm is evaluated. The experimental results show that HG AR-PNN classifier has better stability and higher classification accuracy for less frequent attacks.
關鍵詞:入侵檢測;分類器;概率神經網絡;超圖
Key words: intrusion detection;classifier;PNN;hypergraph
中圖分類號:TN915.08 文獻標識碼:A 文章編號:1006-4311(2018)15-0248-05
0 引言
隨著計算機網絡應用技術的不斷發展,網絡安全漏洞也發生著巨大的變化。由于新漏洞的復雜性,傳統的安全機制(如用戶身份驗證、加密等)已經無法阻止惡意用戶對網絡系統的入侵。在這種情況下,入侵檢測系統就成為了網絡安全系統中抵御入侵攻擊和異?;顒拥牡诙婪谰€。入侵就是試圖破壞計算機網絡系統的保密性、完整性和可用性的行為,而入侵檢測就是監測計算機系統或網絡中發生的事件,分析它們是否有入侵的跡象。一般來說,IDS可分為誤用入侵檢測和異常入侵檢測兩種,誤用入侵檢測的性能取決于新的入侵模式的不斷更新,而異常入侵檢測取決于決策[1]。
由于網絡數據流量的龐大,現有的入侵檢測系統都以基于統計規則的專家系統和機器學習等為發展方向。在各種機器學習方法中,人工神經網絡(ANN)能夠成功地應用于IDS,并且能夠獲得較好的分類效果[2]。
現有基于人工神經網絡的入侵檢測系統的缺點主要有:①由于數據集的不平衡性,系統對不頻繁發生的入侵行為檢測率低。②神經網絡在高維數據集中會產生局部極小值。為了克服這些問題,本文提出了基于超圖和算術取余概率神經網絡(HG AR-PNN)的新方法,該方法在增強了結構穩定性的同時,也提高了IDS的檢測率。
1 相關工作
1.1 概率神經網絡
概率神經網絡(Probabilistic Neural Networks,PNN)是由D. F. Specht在1990年提出的。主要思想是用貝葉斯決策規則,即錯誤分類的期望風險最小,在多維輸入空間內分離決策空間。它是一種基于統計原理的人工神經網絡,它是以Parzen窗口函數為激活函數的一種前饋網絡模型[3]。PNN吸收了徑向基神經網絡與經典的概率密度估計原理的優點,與傳統的前饋神經網絡相比,在模式分類方面尤其具有較為顯著的優勢。
由貝葉斯決策理論:
其中,xT是訓練輸入樣本,x是未知分類的樣本,σ是平滑因子。
③求和層。
每個節點用(4)式計算樣本層輸入的總和值
其中C是類的總數。
④輸出層。
輸出層中的節點通過貝葉斯策略決定每個輸入樣本x的類,訓練中需要選擇的主要因素是平滑因子σ。
1.3 超圖
超圖是傳統圖形理論的推廣,通過超圖可以將真實世界的實體之間的高階關系用直觀的方式表達出來。從數學上講,超圖可以定義為H={X,E},其中,X={x1,x2,…,xn}為非空有限的頂點集合,E={E1,E2,…,En}為X的非空子集,稱為超邊[4]。下面給出了有關超圖和Helly性質的基本定理。
定理1 對于一個給定的超圖H={X,E},超邊集合E?哿X,它是H的相交子集,其中E不為空且E中的超邊兩兩相交。
定理2 (Helly性質)給定一個超圖H,它的超邊為E1,E2,…,En,兩兩相交的超邊可以分為以下兩個情況:
①兩兩相交的超邊,有共有的相交點,如圖2所示。兩兩相交的超邊{E1,E2,E3},頂點x3為共有相交點,即E1∩E2∩E3=x3,則H具備Helly性質。
②兩兩相交的超邊,沒有共有的相交點,如圖3所示。因為在兩兩相交的超邊{E1,E2,E3}中沒有共有的相交點,即E1∩E2∩E3=?準,則H不具備Helly性質。
2 基于超圖和算數取余的概率神經網絡分類器
本節討論基于超圖和算術取余的PNN算法在入侵檢測中的應用。圖4描述了HG AR-PNN分類器的工作流程。
2.1 基于超圖的特征選擇技術
特征選擇技術的主要目標是減少特征的數量,在去除數據冗余的同時,提高分類精度。許多模式識別問題使用文本、光譜、拓撲、幾何和統計特征來訓練學習模型[5]。在數據集數據不平衡的情況下,冗余數據特征的存在,增加了學習模型的泛化錯誤。為了克服這個困難,本文使用超圖來識別最小時間復雜度下的最優特征子集。本文提出的基于超圖的特征選擇算法分為兩個部分:①超圖的表示;②Helly性質的應用。
算法1:基于超圖Helly性質的特征選擇算法。
輸入:
f={f1,f2,…,fm}//所給數據集的m個特征
s={s1,s2,…,sn}//所給數據集的n個樣本
c={c1,c2,…,ck}//所給數據集的k個類
輸出:
fs最優特征子集
算法:HG(f,s,c,fs)://利用歐式空間構建超邊
//利用Helly性質選取最優特征子集
在初始階段,通過對各樣本的拓撲和幾何關系得到超圖的邊,超圖中的超邊和頂點,分別對應數據集中的樣本和特征。本文用基于歐氏空間度量的最小距離算法來構建每個類的邊。
接下來,以遞歸的方式將超圖的Helly性質應用于相交的邊,而不相交的邊所包含的特征將被忽視掉。由于超圖Helly性質的應用,最優特征子集所產生的時間復雜度是最小的。
2.2 基于算術取余概率神經網絡的分類器
一般來說,學習模型的工作效率取決于它能否對未知行為進行高精度的分類。人工神經網絡作為一種學習模型,它在許多數據分析應用中發揮著重要作用。人工神經網絡在不斷改進中得到進化,如前饋神經網絡、徑向基神經網絡、遞歸神經網絡等,它們在提高了檢測效率的同時也減少了訓練時間,其中概率神經網絡PNN將基于核的計算和RBF網絡集成到統一的框架中,由于沒有數據的交互,它能夠快速的訓練學習。在分類過程中,PNN將概率密度函數值和貝葉斯策略下最小期望風險值疊加。PNN在訓練數據集上對已標記數據的概率值進行訓練操作,而在測試數據集上基于未知樣本對每個類的最高估計概率對其進行分類操作,然而對已標記數據的核函數計算是高度計算密集型的。
對于現有的神經網絡分類器的不足,本文提出了一種基于算術取余的PNN分類器,算術取余的思想來源于群論中關于乘法模和加法模的兩個基本定理,即n個數1,2,…,n的模相加或是相乘,而這些在除法中得到的余數顯示了數字的物理特征。據觀察,利用算術取余進行樣本訓練,明顯改善了PNN的分類性能。因此為更大程度地加強PNN性能,首先利用基于超圖的特征選擇技術獲得最優特征子集,再運用算術取余PNN訓練數據集。
算法2:基于超圖和算數取余的概率神經網絡算法。
輸入:
類的總數Tclass
訓練集樣本數Strain
特征向量fs
平滑因子σ
輸出:
測試樣本分類結果Classify
HG AR-PNN分類器算法過程如下:①初始化L,Sum,Classify和ε。②在原始數據集中,隨機選擇若干樣本作為訓練樣本集和測試樣本集,并根據算法1,在訓練樣本集中得到最優特征子集。③接下來,測試數據集中樣本特征向量與訓練數據集中每個類的樣本特征向量的乘積為P,再對P應用平滑因子σ和指數因子exp進行計算,然后再將P值求和。④最后,在決策層,P值最大者即為該測試樣本的分類結果。
3 實驗結果及討論
3.1 基準數據集
KDDCUP’99數據集是一個被用來作為實驗驗證的標準的不均衡網絡入侵數據集。它由500萬個網絡連接記錄組成,每個記錄都有42個屬性,其中41個屬性為基礎屬性,如表1所示,剩下的一個屬性為決策屬性,即標記該條記錄是正?;蚴枪纛愋?。除了正常數據外,KDDCUP’99數據集共有22種類型的攻擊,它們分為四大類:DOS,U2R,R2L,Probe,如表2所示。KDDCUP’99數據集的各類樣本分布是不均衡的,如DOS攻擊是大量的,而U2R,R2L,Probe則相對較少[6][7]。正是該數據集的不均衡性,使它更適于本文所討論的問題。
3.2 實驗過程
本文在i5處理器,Windows 7操作系統下,運行MATLAB6.5實施算法HG AR-PNN。實驗分為三個階段:①數據預處理;②訓練樣本集和測試樣本集的準備;③結果評價。
在初始階段,由于KDDCUP’99數據集是十分龐大的,因此,我們隨機從中選取訓練樣本和測試樣本。本文選取的訓練樣本數和測試樣本數如表3所示。
在接下來的階段,我們先對樣本中的字符型屬性轉化為整數型屬性,再將每個樣本的41條基礎屬性做歸一化處理,即。最后,將HG AR-PNN的分類性能與已有的分類器(如隨機森林、貝葉斯、MLPNN、BPNN等)進行比較,評價標準如下:
TP:表示實際上是攻擊,且被分類器正確識別為攻擊的樣本數。
TN:表示實際上是正常,且被分類器正確識別為正常的樣本數。
FP:表示實際上是攻擊,而被分類器錯誤識別為正常的樣本數。
FN:表示實際上是正常,而被分類器錯誤識別為攻擊的樣本數。
檢測率:
誤警率:
準確率:
除了這些評價標準外,穩定性也被認為是評價IDS性能的重要標準之一[8],HG AR-PNN分類器的穩定性是通過訓練成功的樣本比例決定的。
穩定性=
3.3 實驗結果及討論
本文對基于超圖的特征選擇技術得到的特征向量歸一化算數取余處理,并用處理后的特征向量訓練PNN分類器,最后,將HG AR-PNN與現有分類器的分類性能進行了比較,如表4所示。
從實驗結果分析,對于常見樣本來說,HG AR-PNN的性能與現有的其他分類器是類似的,如正常樣本、DOS、Probe等。而對于出現不頻繁的攻擊,如U2R、R2L等,HG AR-PNN的檢測率和準確率都高于其他分類器,而誤警率也明顯偏低。HG AR-PNN不僅能夠更好地辨別特征之間的差異,還能為小樣本數據提供良好的分類性能。綜上所述,超圖的Helly性質和對最優特征子集進行算數取余能夠提高PNN的分類性能,且對高維不平衡數據集依然有著良好的分類效果。
另外,HG AR-PNN在訓練時間和穩定性方面也優于其他分類器,從表可知,HG AR-PNN的穩定性高于現有的神經網絡分類器,雖然HG AR-PNN的訓練時間比一些分類器的訓練時間要長,但在現有的神經網絡分類器中卻是訓練時間最少的。因此,本文提出的HG AR-PNN分類器在保證良好的分類精度的前提下,有效地降低了時間復雜度和空間復雜度。
4 結論
隨著網絡技術的迅速發展,網絡信息安全成為一個極具挑戰性的研究領域。IDS作為網絡防御的一個重要角色,它對網絡中流量進行實時監視,以識別各種網絡安全漏洞。隨著機器學習技術的出現,智能化和魯棒性IDS的研究不斷發展,而學習模型的性能取決于數據集的性質和學習體系結構的穩定性。本文提出了基于超圖Helly性質和算數取余概率神經網絡的入侵檢測分類器模型。實驗表明,HG AR-PNN相比現有分類器的優勢在于它擁有較高的穩定性,且對小樣本攻擊數據依然有較高的檢測率、準確率和較低的誤警率。
參考文獻:
[1]曹元大.入侵檢測技術[M].北京:人民郵電出版社,2007.
[2]郭春.基于數據挖掘的網絡入侵檢測關鍵技術研究[D].北京:北京郵電大學,2014.
[3]沈夏炯,王龍,韓道軍.人工蜂群優化的BP神經網絡在入侵檢測中的應用[J].計算機工程,2016(02).
[4]王超杰.超圖理論算法研究及其在圖像分類中的應用[D].廈門:廈門大學,2014.
[5]SH Kang,KJ Kim.A feature selection approach to find optimal feature subsets for the network intrusion detection system[J].Cluster Computing,2016,19(1):1-9.
[6]呂銀均.基于數據挖掘的入侵檢測系統研究與實現[D].杭州:浙江工業大學,2014.
[7]王翔,胡學鋼.高維小樣本分類問題中特征選擇研究綜述[J].計算機應用,2017(09).
[8]MAM Hasan,M Nasser,B Pal,S Ahmad.Support Vector Machine and Random Forest Modeling for Intrusion Detection System (IDS)[J].Journal of Intelligent Learning Systems & Applications,2014,6(1):45-52.