论文导读:Distributed Storage of Large-Scale Multidimensional Electroencephalogram Data Using Hadoop and HBase

[DuttaKPSD11] Haimonti Dutta, Alex Kamil, Manoj Pooleery, Simha Sethumadhavan, John Demme: Distributed Storage of Large-Scale Multidimensional Electroencephalogram Data Using Hadoop and HBase. Grid and Cloud Database Management 2011:331-347

温馨提示:“论文导读”旨在推荐他人发表的本领域相关论文。本论文摘要由厦门大学计算机系林子雨老师(http://www.cs.xmu.edu.cn/linziyu)翻译,如果您对该论文细节感兴趣,可以阅读英文原文(全文PDF版权归出版商所有,因此需要到出版商网站下载该论文PDF)。

【摘要】当前各个领域都不断累积越来越多的海量数据,比如科学和工程领域,这种现象被称为“数据雪崩”。因此,人们设计了云计算设施,来专门满足这种数据密集型需求,云计算把高性能计算和高性能网络很好地结合在一起。可靠性、可扩展性和分布式计算,在云计算中得到了广泛的应用。Apache Hadoop是一个开源的项目,它提供一个分布式文件系统,可以创建数据库块的多个副本,并把它们分布到簇中的不同数据节点上,从而获得可靠性和快速的计算能力。面向列的数据库(比如HBase)和MapReduce编程模型这二者的结合,可以让我们很容易开发大规模分布式应用。本文中,我们采用一个小规模的Hadoop簇进行实验,它包含29个节点,每个节点拥有8核处理器,并以脑电图数据为基础,介绍了一个分布式存储的实例。我们的实验室结果显示,Hadoop/HBase项目仍然处于起步阶段,但是,在延迟和吞吐量方面,它们却可以提供较好的性能。在未来的工作中,我们将探索在这种云计算设施上面开发新的机器学习算法。