基于密度和网格的入侵检测算法研究(2)

来源:网络(转载) 作者:王干 发表于:2011-08-15 13:44  点击:
【关健词】密度聚类;网格聚类;混合聚类;入侵检测
3 将混合聚类算法应用于入侵检测算法分析 3.1 相关定义 HVDM:异构值差度量(HVDM)距离计算公式是Wilson提出的适用于多类属性的距离计算公式;因为入侵检测数据属性中不仅有标称属性而且有实数属性; Isomap:Isom

  3 将混合聚类算法应用于入侵检测算法分析
  3.1 相关定义
  HVDM:异构值差度量(HVDM)距离计算公式是Wilson提出的适用于多类属性的距离计算公式;因为入侵检测数据属性中不仅有标称属性而且有实数属性;
  Isomap:Isomap算法是Tenenbaum在2000年提出的一种非线性降维算法,核心思想是保持点对之间的测地距离,把HVDM结合到Isomap算法中就形成了H-Isomap 算法;
  3.2 算法描述
  首先利用H-Isomap 对入侵检测数据源进行特征提取,排除掉那些对入侵检测来说冗余的数据,减少聚类算法的工作量,进一步提高工作效率;然后利用上文提到的混合聚类算法对特征提取后的入侵检测数据源进行聚类,从而进行检测。
  3.3 算法步骤
  1)确定入侵检测数据的本征维数n;
  2)利用HVDM公式计算任意两个数据点之间的距离;
  3)确定界标点的数量和选取规则,确定邻居数量k;
  4)利用Isomap 算法对训练样本和测试样本进行计算,得到n 维嵌入数据;
  5)利用上文提到的混合聚类算法对嵌入数据进行入侵检测。
  4 实验与分析
  本次实验采用了KDDCUP99数据集对基于密度和网格混合聚类算法进行检测率和性能等方面的检验。KDDCUP99数据集包含了490万条连接记录,它是模拟美国空军局域网采集2月多所得网络数据,其在入侵检测领域是比较权威的检测数据集。
  我们选用的数据集是KDDCUP99中的“kddcup.data_10.percent”,该数据集共有494 021个记录,其中正常记录数据是:97 278,其余都是异常数据。为了满足检测算法中两个假设的需要,从整个检测数据集中选取19797条记录作为实验用数据, 其中19421条正常数据,正常数据在所有数据中占到了98.10%,符合检测算法中正常数据的数目远大于入侵数据数目的假设。对于每个TCP/IP连接,有41种符号型和数值型的特征属性, 符号特征属性(protocol, service和flag)很难表示成数值型。所以我们把余下的38个特征选其取零值比较少的属性,最后选取12个属性和一个类标号属性作为测试数据集的字段。为了评价分析结果,采用攻击误检率FDR和检测率DR来衡量。
  FDR=被误判为入侵的正常记录数/总测试记录中的正常记录数
  DR=检测出来的入侵记录数/总测试中的入侵记录数
  我们将混合聚类算法与现有的基于划分的聚类算法K均值算法和K+均值算法实验结果进行对比,实验环境是在CPU:双核T4300 2.1GHz,内存:2G,OS:windows xp,开发环境:VC++下进行的。由于K均值算法需要预先输入聚类个数,而不同的聚类个数对聚类的效果影响很大。首先可以通过改变初始聚类的个数来观察聚类算法的不同效果。表1是聚类个数为8个的情况,可以看到3和7号聚类是个异常类(阀值是2%),1、2、4、5、6、8号聚类是正常聚类。
  分别增加聚类个数到12,16,20、24、28、32。表2是我们最后得到的实验数据,可以看出K均值算法,K+均值算法以及基于密度和网格混合聚类算法均随着聚类个数的增加,检测率和误检率都同时升高。
  为了比较基于密度和网格混合聚类算法与K均值算法、K+均值算法在入侵检测方面的性能,这里绘制出了三种算法的检测率和误检率ROC曲线图,即接受者操作特性曲线 (receiver operating characteristic curve,简称ROC曲线);如图1所示。
  从图1可以看出使用基于密度和网格混合聚类算法检测率有所提高,而误检率有一定的下降(在检测率相当的情况下),充分说明该混合聚类算法相比另两种算法有比较高的检测性能,算法的时间复杂度由混合聚类算法四个主要步骤决定,整个算法时间复杂度为O(x+3nMn),x为数据集中点的个数,其时间复杂度和K+均值算法的时间复杂度比较相近,但由于其性能明显略高于前两种算法,故提出的这个混合聚类算法是可行的。
  参考文献:
  [1] Han Jia-wei, Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.
  [2] 马晓春.数据挖掘在网络入侵检测系统中的应用研究[D].西安:西北工业大学,2005.
  [3] Wilson D R, Martinez T R.Improved heterogeneous distance functions[J].Journal of Artificial Intelligence Research,1997(6):1-34.
  [4] Silva V D, Tenenbaum J B.Global versus local methods in nonlinear dimensionality reduction[J].Proc NIPS,2003(15):721-728.
  [5] 郑凯梅,钱旭,虎晓红. HL-Isomap+SVM在网络入侵检测中的应用[J].计算机工程与应用,2010,46(28).
  [6] 郭红艳,李涛. K+均值在网络入侵检测中的应用研究[J].软件导刊,2009(3).
  [7] 王欣.基于密度网格结构的数据流在线聚类算法研究[D].北京工业大学,2010.
  [8] 杨建华,蒋玉明,彭轮.数据挖掘在网络入侵检测中的应用研究[J].微计算机信息,2009(24).
  [9] 王川伟.基于混合聚类的入侵检测算法研究[D].西安科技大学,2010.
  [10] 刘晓博.基于层次聚类的入侵检测算法研究[D].吉林大学,2010.
 

(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.