Historical disaster classification method based on ant colony clustering
JIA Zhi.juan1*, HU Ming.sheng2, LIU Si2
1. School of Computer Science and Technology, Wuhan University of Technology, Wuhan Hubei 430070, China;
2. Network Center, Zhengzhou Normal University, Zhengzhou Henan 450044, China
Abstract:
Aiming at the descriptiveness and parsimony problems of historical disaster records a historical disaster classification method which based on ant colony clustering is proposed in this paper. The disaster data are normalized by using gray relational analysis approach, and then the levels of historical disasters are divided by the results of ant colony automatic clustering, so as to avoid the arbitrary man-made interference. In comparison with other classification methods in performance, experimental results show that this method has high accuracy and practicality.Concerning the description and simplicity of historical disaster records, a historical disaster classification method based on ant colony clustering was proposed in this paper. The disaster data were normalized by using gray relational analytical approach, and then the levels of historical disasters were divided by the results of ant colony automatic clustering, so as to avoid the arbitrary man.made interference. In comparison with other classification methods in performance, the experimental results show that this method has higher precision and practicality.Key words:
historical disaster; classification; clustering; ant colony algorithm; gray relational analysis
0 引言
我国历史文化悠久,历代正史中都有关于灾害发生、危害情况的记载,形成了一个序列长、内容丰富的资料库,这些历史灾害信息对我们认识灾害、研究灾害和减轻灾害有着非常重要的参考价值,国内外灾害研究者都对此给予了高度评价。2011年5月国家减灾委发表了《国家自然灾害空间信息基础设施总体构思》主旨报告[1],进一步把历史灾害信息平台作为我国灾害空间信息系统建设的重要组成部分。
然而由于古代科技水平的限制,长期以来灾害记录一直处于定性描述阶段,这使得对历史灾害信息的还原、提取、量化难度很大,基于现代翔实灾害记录的各类灾害分级方法因而难以套用于历史灾害记录。现代灾害记录中的各种灾害属性如伤亡人数、受灾面积、倒房数量、直接经济损失等作为灾害分级方法的重要依据,都有着客观准确的统计结果,量化程度很高,可比性较强;然而历史灾害记录的各项灾害属性则以描述性语言为主,并且存在大量属性值缺失,可比性较差。例如一条典型的洪涝灾害记录:“十二月戊戌,开封府陈留等六县水灾,诏免其田租”,仅包含了灾种,时间,地点,政府响应等信息,既未提及伤亡人数,也未提及倒房数量,而经常作为灾害分级关键属性的“直接经济损失”更无从得出,数据量化难度很高,这使得现有的一些历史灾害分级方法人为观念介入较多,难以令人信服,而基于现代灾害记录的分级方法[2-5]则适应性较差,神经网络[6]则因为其较强的逼近非线性函数的能力、模式识别能力以及分类能力,成为理论上较为适用的方法,但是由于历史灾害记录的特殊性,神经网络必须先通过专家人工分级的结果进行训练,依然无法摆脱对主观因素的依赖。
鉴于此,本文尝试用另一种思路即先聚类再分级的方法来解决历史灾害分级问题,目前已有学者提出相关的模糊聚类[7-8]、灰色聚类[9-10]等灾害聚类分级方法,然而这些方法仍离不开人为的参数干预,如模糊聚类必须手动设置合适的α值,并且其应用背景都是灾害记录已经过高度量化的情况。因此本文提出一种蚁群聚类算法对历史灾害记录进行自动聚类,再根据聚类结果中各聚类中心的层次性完成分级,从而有效减免了灾害分级流程中的主观因素介入,并通过实验证明了本方法的有效性。
1 蚁群聚类分级算法
1.1 蚁群聚类思想
历史灾害分级问题可以归结如下。1)分级标准问题。由于历史灾害记录以描述性为主,不可避免地加入了记录人的主观看法,因此对这些记录难以制定出较客观的分级标准,不同的历史专家对同一条记录也很可能根据各自的标准而产生不同的评级结果。而通过聚类可以不依赖于具体的分级标准,是一个很好的解决思路。2)数据量化问题。历史灾害记录叙述简约且无统一格式,这就要求既要提取出能体现灾害特征的关键信息,又要兼顾其他重要信息以补不足。3)批量处理问题。现有的一些分级方法都是基于小样本进行分析的,当样本量较大时其运算效率就会大大降低,而历史灾害记录浩如烟海,对其进行分级处理就必然要考虑到算法时效性问题。4)专家监督问题。在历史灾害数据自身系统性,表述性不足的情况下,历史专家的专业意见就显的格外重要,而且聚类结果本身也要获得历史专家的认可才有意义。但是由于历史灾害记录固有的主观性特点,专家与专家之间也存在着一定的分歧,这使得在分级过程中过多参入专家的意见又可能使所得出的分级结果成为“一家之言”,客观性不足,因此需要加以权衡,本文认为让专家的指导作用尽量体现在大方向上是一种较为理想的解决方式。
聚类是指将物理或抽象的数据集合按有关特性的相似程度进行分组的过程。通过聚类可以使同一组中各数据的特性尽可能地相似,而不同组数据间的特性差异尽可能地大,灾害分级对等级内和等级间灾害数据的期望与聚类思想是一致的,可见灾害分级问题可以被视为一种层次聚类问题。
自1991年蚁群算法[11-12]提出以来,已在多个领域得到了广泛的应用,并衍生出了各种蚂蚁行为模型。孵化分类(brood sorting)是一种可以在许多种类的蚂蚁中观察到的行为,蚂蚁将卵和小幼虫紧密地排列成束并且放置在巢穴孵化区的中心,而最大的幼虫位于孵化束的外围。Deneubourg等[13-15]提出了一个模拟这一现象的模型,其中蚂蚁根据周围物品的数量来收集或丢弃某个物品。例如,如果一只蚂蚁带有一个小卵,那它极有可能将其放置在排布了许多相同的卵的区域;相反,如果一只未携带任何物品的蚂蚁在一堆小卵中发现了一只大幼虫,那么它带走这只幼虫的概率非常大。在其他任何情况中,蚂蚁收集或丢弃物品的概率值都非常小。 (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)