基于Hadoop的分布式索引集群的研究(2)

来源:网络(转载) 作者:王伟 发表于:2012-01-17 13:21  点击:
【关健词】海量数据; Hadoop; 分布式索引; 分布式哈希表;集群
3.1索引集群框架 索引集群的任务是并行构建混合索引机制,可分为数据分块、局部索引集群、全局索引集群三部分。 数据的分块由HDFS负责,HDFS自动地将数据划分为数据块,默认分块大小是64M,这个用户可以自己设置。

  3.1索引集群框架
  索引集群的任务是并行构建混合索引机制,可分为数据分块、局部索引集群、全局索引集群三部分。
  
  
  数据的分块由HDFS负责,HDFS自动地将数据划分为数据块,默认分块大小是64M,这个用户可以自己设置。在数据分块时通过MapReduce将数据块处理作业拆分成若干个可独立运行的Map任务,分配到不同的集群节点上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件来创建索引。当用户查询时全局索引集群将查询请求转发到能满足的数据块来实现路由查找功能,从而减小局部索引集群的压力,提高查询速度。通过数据块摘要、局部索引摘要的方式实现全局索引块。在系统中我们采用局部索引块的方式构建全局索引并根据关键值哈希编码分布到全局索引集群上。通过DHT技术搭建全局索引集群。局部索引集群的节点通过对各个数据块建立“键值—数据块摘要”的局部索引表,然后全局索引集群节点再建立“键值—数据块”的全局索引表。这样就减少了每个索引项的路由列表的长度,对全局索引项再通过一致性哈希进行组织。客户查询的时候先将查询键值哈希,然后通过一致性协议找到维护该键值的数据块全局索引表,然后再将请求转发给数据块对应的局部索引表,最后得到查询结果。
  4 结 论
  本文给出了Hadoop相关分布式技术的介绍,并介绍了分布式哈希表算法。然后分析了分布式索引策略。最后通过Hadoop的HDFS存储索引分块数据,MapReduce并行计算框架并行构建索引,设计了全局索引集群和局部索引集群相结合的混合式索引集群的分布式索引集群的框架模式。在分布式索引集群中当数据块文件改动时还涉及到索引的更新维护等操作,以及索引集群间的协同工作,这也是我们今后进行更一步的方向。
  
  参考文献:
  [1] Tom White(美)著,曾大聃,等译:Hadoop权威指南(中文版)[M]. 北京: 清华出版社, 2010.
  [2] Hadoop Distributed File Syste. http://hadoop.apache.org/hdfs/. 2011.
  [3] Hadoop MapReduce. http://hadoop.apache.org/mapreduce/. 2011
  [4] 王 峰, 雷葆何. Hadoop分布式文件系统的模型[J]. 电信科学, 2010,12: 95-97.
  [5] 黄晓云.HDFS的云存储服务系统研究[C].大连:大连海事大学.2010.
  [6] 张路,等.大规模数据集的分布式索引机制研究[J]. 微电子学与计算机,2008, 25(10): 122-123.
  [7] 吴吉义.基于DHT的开放开放对等云存储服务系统研究[C].杭州:浙江大学.2011
  
  作者简介:
  王伟(1987-),河南人,硕士研究生,研究方向为分布式存储。
  1.联系人:王伟 ; 2.通信地址:成都理工大学银2宿舍楼;邮编:610059;
  3.电子邮箱:mypapermail@163.com ;电话:15882137235。
 

(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)
顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.