论文导读：Dirty Data Management in Cloud Database

[WangLWG11]Hongzhi Wang, Jianzhong Li, Jinbao Wang, Hong Gao: Dirty Data Management in Cloud Database. Grid and Cloud Database Management 2011:133-150

温馨提示：“论文导读”旨在推荐他人发表的本领域相关论文。本论文摘要由厦门大学计算机系林子雨老师(http://www.cs.xmu.edu.cn/linziyu)翻译，如果您对该论文细节感兴趣，可以阅读英文原文（全文PDF版权归出版商所有，因此需要到出版商网站下载该论文PDF）。

【摘要】数据质量问题是由脏数据引起的，大规模数据集更可能包含脏数据。作为大规模数据的重要管理平台，云数据库中脏数据管理尤为重要。由于传统的基于数据清理的方法，不能完全清理脏数据，而且对于大规模数据集而言，代价很高。本文提出了一种新的大规模数据管理方法，来获得具有质量保证的查询结果。为了达到这个目标，本文提出了一个针对云数据库的脏数据库存储结构，以及一个针对查询处理的多层索引结构。一个直接使用脏数据的查询可以充分利用这个索引，选择云中的那些候选节点来高效地运行查询。

【部分正文内容翻译】

数据质量在现代信息系统中，扮演了重要的角色。一个由SAS和Merrill Lynch[1]支助的报告显示，由于数据质量问题，美国的企业损失超过6000亿美元。对于许多企业而言，收集数据和清理数据的开销，占了信息集成开销的50-80%。

数据质量问题是由脏数据引起的，主要是指不一致、不准确、错误、冗余和过期数据。脏数据在信息系统中广泛存在。数据处理的所有步骤都可能会导致生成脏数据。例如，在数据收集环节，收集设备的噪声和用户输入错误，都可能带来脏数据。在数据集成环节，不一致性是由模式的异构性和数据源的完整性约束导致的。在信息传输步骤，网络的不可靠性可能导致不正确的数据。

在大规模数据集里，更可能存在脏数据。有两个原因，第一个原因是，维护大规模数据的困难性以及大规模存储设备的错误，会导致数据中发生更多的错误。第二个原因是，数据的不一致性的可能性更大。

脏数据会严重影响数据的可用性。例如，就像文献[2]阐述的那样，股票数据库中大约存在65%的不准确数据，并且导致10%的利润损失。在财务软件中存在的不一致性，将会导致财务的混乱，在数据汇总时，也无法得到正确的结果。因此，很有必要对脏数据进行管理，来降低它的危害，从而有效充分地利用数据。

脏数据管理的一个传统的方法是，数据清理[3]。对于大规模数据集，在许多情形下，数据清理都是不合适的。一方面，数据清理操作的代价通常很高。当大规模数据频繁更新时，系统的高效性，会受到数据清理操作的严重影响。另一方面，数据清理技术，不会完全清理脏数据，脏数据的清理工作会导致信息的丢失。因此，需要不涉及数据清理过程的脏数据管理策略。这类技术直接在脏数据上进行查询，并且可以获得高质量的查询结果。脏数据上的查询处理技术包括文献[4-6]。但是，它们都没有考虑在大规模数据集上的脏数据。

构建云数据库是管理大规模数据集的有效方式。在云数据库中，有三类计算机节点：master、router和slave。Master节点负责对slave节点进行管理。Router节点存储云数据库的索引。Slave节点存储数据，并且处理查询。当一个查询到达时，首先被发送给router，router搜索索引来找到那些包含查询结果的slave集合。Slave节点返回局部结果，这些局部结果会被合并得到最终结果。

图7.1是一个云数据库实例，包含一个mater节点，两个router节点，六个slave节点。

当前的云环境中的数据管理，都采用一个假设，即数据是干净的。这些系统根本就没有考虑脏数据。本文将介绍高效和有效的云数据库脏数据管理策略。脏数据被分布到云中，可以支持高效的查询。我们构建了一个3层索引，可以为一个查询快速定位相关的数据节点。为了实现高效的基于索引的查询处理，我们设计了一个数据分区策略。在索引的基础上，我们提出了一个查询处理策略，来获得具有质量保证的查询结果。