图像搜索结果的重叠层次聚类与代表点展现

来源:网络(转载) 作者:谷瑞军 陈圣磊 陈耿 发表于:2012-04-16 13:19  点击:
【关健词】图像聚类;链接聚类;多簇划分;图像距离
针对图像聚类中面临的高维、准确度低、部分重叠等问题,提出了一种高效的基于链接层次聚类的多标记图像聚类。该方法通过图像距离计算相似度,通过链接聚类检测重叠簇。从而每个图像可能归属于多个簇,使得簇标签的意义更明确。为了检验方法的有效性,对通过搜索引擎检索

 Hierarchical overlapping clustering and exemplar visualization of images returned by search engine
  
  GU Rui.jun1*, CHEN Sheng.lei1, CHEN Geng1,2, WANG Jia.cai1
  
  1.School of Information Science, Nanjing Audit University, Nanjing Jiangsu 210029, China
  ;
  2.School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China
  Abstract:
  
  To resolve the problems of high dimensionality, low accuracy and overlapping in image clustering, an effective link.clustering based image multiple.cluster partition method is proposed in this paper. This method utilizes image distance to measure similarity and identifies overlapping clusters using link.clustering. As a result, an image may be partitioned into multiple clusters, and this multiple.clusters partition makes each cluster more characteristic compared with others. To validate this method, experiments were carried out on the datasets returned by search engine when searching for some key words. The result shows that our method can find explicit clusters with partial overlapping.
  
  To resolve the problems of high dimensionality, low accuracy and overlapping in image clustering, an effective link.clustering based image multiple.cluster partition method was proposed in this paper. This method utilized image distance to measure similarity and identified overlapping clusters by using link.clustering. As a result, an image may be partitioned into multiple clusters, and this multiple.cluster partition makes each cluster more specific compared with others. To validate this method, experiments were carried out on the datasets returned by search engine when searching for some key words. The result shows that the proposed method can find explicit clusters with partial overlapping.
  
  Key words:
  image clustering; link clustering; multiple.cluster partition; image distance
  
  
  随着图像数量的急剧增长,图像聚类[1-9]已成为将大量图像划分为少数有意义分组(簇)的重要技术。通常情况下,通过图像搜索引擎返回的搜索结果包含多个主题。将结果组织为不同语义的簇有利于用户的浏览。然而,对于图像聚类存在很多挑战,例如高维灾难、可伸缩性差、准确度低、簇意义模糊、簇部分重叠、图像关键特征不易提取等。本文关注的问题是如何对Web图像的搜索结果进行聚类。为了提高图像聚类的结果的质量,本文提出一种高效的基于链接层次聚类的多标记图像聚类,该方法通过图像距离计算相似度,通过链接聚类检测重叠簇,从而每个图像可能归属于多个簇,使得簇标签的意义更明确。为了检验方法的有效性,选择“flower”、“Afric”等几个关键词通过搜索引擎进行图片搜索,并取前25张图片进行聚类,结果表明,该方法能有效发现具有重叠划分的簇,且簇的意义比较明确。
  本文的组织如下:首先简述相关的研究工作,然后提出基于链接聚类的图像多重划分方法,接着通过实验验证该方法的有效性,最后总结全文,并对未来的工作进行展望。1 相关工作
  近年来,数字媒体技术的发展使得数字图像的制作和传播越来越容易,有效的图像搜索已成为多媒体搜索领域的重要研究课题之一。精确图像搜索是当前研究的焦点,例如使用PageRank[6]算法根据图像的纹理信息和内容搜索用户感兴趣的相关图像。为了实现Web 图像检索结果的聚类,文献[8]定义了单词与图像节点之间的异构链接以及单词节点之间的同构链接,提出并定义了单词可见度这一属性,并将其集成到传统的TF.IDF模型中以挖掘单词—图像之间关联的权重,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web 图像聚类性能的目的。然而,图像的搜索结果往往数量巨大,如何进行有效的聚类,提供给不同兴趣爱好的用户进行选择需要进一步研究。
  传统上,由于很多搜索引擎返回成千上万的图片排序列表,因此带给用户不好的用户体验。为改变这种情况,学者开始从事有关聚类图像的研究以提升用户的搜索体验。目前解决的方法是根据不同的视角将搜索结果进行重新组织,划分为不同的分组。文献[9]提出一个使用可视化、纹理和链接分析的层次式聚类方法。通过使用基于视觉的页面分割算法,网页被划分成块,图像的纹理和链接信息可以从包含该图像的块中提取。通过使用块层次的链接分析技术,可以构建以图像为节点的图。然后,应用谱技术发现图像Euclidean嵌入,该嵌入反映了图的结构。对于每幅图像,该方法中给出3种表示,即视觉特征、纹理特征、基于表示的图。然后,使用谱聚类技术,将搜索结果聚类为不同语义的簇。文献[3]借鉴近邻传播聚类的思想,设计了一种稀疏、快速的近邻传播算法,可以发现图像搜素结果的代表点,从而更好地展示搜索结果。在真实数据集上的实验结果证明了该方法在视觉表达和定量分析上的有效性。上述方法多是采用经典的聚类算法,虽然可以生成有划分的结果,但如何呈现给用户依然是一个开放性问题。另外,聚类后,每个图像只能划分到一个簇,即硬划分。事实上,一个图像可能包含多种语义,即可以同时归属于多个簇。
  2 基于链接聚类的图像多重划分
  针对图像聚类中面临的高维、准确度低、部分重叠等问题,提出了一种高效的基于链接层次聚类的多标记图像聚类。该方法称为基于链接聚类的图像多重划分(Link.clustering based Image Multiple.clusters Partition,LIMP)。描述如下。
  第1步
  考虑到像素间的空间相关信息,计算图像间的图像距离。
  第2步
  计算图像间的相似度,设定阈值,若两个图像间的相似度大于阈值,则认为两者之间存在边,边的权重为相似度,从而构造出一个加权无向图。 (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.