论文导读:A Novel Solution of Distributed Memory NoSQL Database for Cloud Computing

[HanSS11]Jing Han, Meina Song, Junde Song: A Novel Solution of Distributed Memory NoSQL Database for Cloud Computing. ACIS-ICIS 2011:351-355

温馨提示:“论文导读”旨在推荐他人发表的本领域相关论文。本论文摘要由厦门大学计算机系林子雨老师(http://www.cs.xmu.edu.cn/linziyu)翻译,如果您对该论文细节感兴趣,可以阅读英文原文(全文PDF版权归出版商所有,因此需要到出版商网站下载该论文PDF)。

【摘要】传统的关系型数据库对于在线存储而言存在很多问题:较低的性能无法满足大规模数据的需求,大规模数据的存储方法还没有较好的解决方案。NoSQL和分布式内存数据库技术具备解决上述问题的潜力。NoSQL数据库技术可以提供键值类型的数据存储,可以大体上保证较高的性能。分布式内存数据库技术提供了一种在云中以动态和可扩展的方式对大规模数据进行简易存储的方法。

本文提出了一种的新的体系架构,称为CDSA,它是一种面向云环境的、分布式内存NoSQL数据库体系架构,通过采用合理的策略,它可以改善查询数据的性能,并可以保证在云中实现大规模数据存储。而且,从分布式数据库簇中增加或者删除节点时,其他节点可以继续工作,而不需要停止对外服务。我们认为,CDSA可以提供持久的存储,并且具有较高的处理能力和较低的访问延迟。

【部分正文内容翻译】

为了以较高的效率实现对数据的存储和管理,业界在1960年代提出了数据库管理系统(DBMS)的概念,并且在文件系统的基础上开发了早期的数据库管理系统。随着应用的急剧膨胀,需要处理的数据也迅速增加,应用需要处理更加复杂的数据和更加复杂的查询操作,同时也需要功能更加丰富的数据库。由此,分布式数据库、并行数据库、数据库簇和数据仓库等开始逐渐发展起来。上述技术都为了满足某些特定的应用,对大规模数据库存储的支持都不够理想。与此同时,因特网已经发展成为一个巨大的信息存储仓库,每天都会产生大量的数据。如果想要检索这些数据,你就需要大量的存储空间和大规模的计算能力,而当前的数据库系统都无法满足这些要求,大服务器也存在着性能限制和代价高昂等问题。因此,谷歌使用大量廉价PC构建了一个大规模的簇,设计并实现了一个文件系统GFS [1]、一个存储系统BigTable[2]和一个并行编程环境MapReduce[3][4]。这些构成了谷歌的云计算环境,其他公司也提出了类似的云系统,包括Amazon EC2[5]、S3[6]以及IBM的蓝云等等。

当面临大规模数据时,现有的数据库系统就无法保证较好的性能,许多企业也买不起价格不菲的数据库管理软件,未来的大规模数据必须迁移到云中,但是,当采用分布式数据库存储时,数据库系统要求的ACID四性将会严重降低一些操作的性能。

为了保证较高的可用性、高可靠性和经济性,云数据存储必须具有冗余数据存储,从而保证可靠性。此外,云存储必须能够满足大量并发用户的请求,为这些用户提供并行服务。因此,云环境中的数据存储技术需要较高的吞吐量和传输速率。

本文提出了一种面向云环境的、高性能的数据存储架构,通过使用合理的策略,来改进分布式数据存储的性能。