林子雨老师团队暑假第7次小组会议纪要

数据库实验室林子雨老师小组第七次小组会议会议纪要

会议时间：2012年08月31日14时30分到17时

会议地点：厦门大学海韵园科研二号楼303室

与会者：林子雨、赖明星、刘颖杰、殷耀明、韩静

纪要撰写：赖明星

会议内容：

厦门大学计算机系数据库实验室林子雨老师小组第七次小组会议如期召开，会议首先由赖明星同学作题为《AD-LRU: An efficient buffer replacement algorithm for flash-based databases》的论文阅读报告，随后由刘颖杰同学作题为《Keyword Search over Relational Databases: A Metadata Approach》的论文阅读报告，最后由对报告进行点评，并对两位同学接下来的工作进行了初步安排。下面是详细内容。

赖明星同学作题为《AD-LRU: An efficient buffer replacement algorithm for flash-based databases》的论文阅读报告

赖明星同学此次的报告的主要内容是介绍一种面向闪存数据库的缓存管理算法。首先介绍了闪存的特性，以及为何不能采用已有的面向硬盘的缓存管理算法，其次详细介绍了一种简单的面向闪存的缓存管理算法，即CF-LRU算法，通过详细分析CF-LRU的优缺点，找出了设计面向闪存数据库的缓存管理算法应该考虑的因素，然后详细介绍了论文的重点，即AD-LRU算法，最后分析了AD-LRU算法的性能，以及是否考虑到了相关因素，最后对两个算法进行了比较分析。

CF-LRU算法

CF-LRU算法是第一个面向闪存的缓存管理算法，该算法基于LRU算法，但是考虑到了闪存的读写效率不一致的特性。CF-LRU算法的思想就是引入一个窗口，该窗口存放包括最旧的页在内的一部分较旧的页，典型的LRU算法替换最旧的页，而CF-LRU选择窗口中替换代价最小的页。

由于CF-LRU基于LRU，只是简单的考虑到闪存的读写效率不一致的特性，所以它也有LRU算法的缺点以及自身的一些局限性，包括（1）窗口大小很难适应所有的工作负载，需要动态调整（2）冷的脏页可能存在缓存中存在很久，降低了命中率（3）没有考虑访问频率。

设计面向闪存数据库的缓存管理算法需要考虑的因素

通过对CF-LRU算法的分析，可以归纳出一个优秀得面向闪存的管理算法应该考虑的因素，包括以下四部分（1）访问时间（2）访问频率（3）考虑闪存的读写不一致的特性（4）抗污染。

AD-LRU算法

AD-LRU算法将缓存区分为两部分，即冷区和热区，冷区存放那些只引用过一次的页，热区存放那些引用过多次的页，在冷区和热区中分别LRU算法。并且冷区和热区的大小是动态调整的，当发生替换操作的时候，首先在冷区中做替换，如果冷区的大小达到一个系统预先设定的下届，则替换操作发生在热区。

刘颖杰同学作题为《Keyword Search over Relational Databases: A Metadata Approach》的论文阅读报告

刘颖杰同学在做论文阅读报告前还介绍了自己这周的学习情况，主要介绍了（1）linux系统的文件权限管理，特别是文件夹的读、写、执行权限的作用（2）操作系统的分区问题，包括boot引导区，主分区，逻辑分区以及它们各自的作用。

刘颖杰同学此次论文报告的主要内容是介绍如何使用Metadata方法来解决关系数据库中关键词查询问题。首先通过分析之前相关研究的缺陷，以及关键词查询的过程，提出了在数据库返回信息较少的情况下如果得出较好的查询结果，算法最后也是通过产生sql语句实现关键词查询技术。此次报告还重点介绍了基于关键词的数据库查询中，关键词与表名和属性之间相互影响，并通过计算“上下文影响”更新相应权重。

会议最后由林子雨老师做点评，并对两位同学接下来一段时间的学习进行的简单的规划。规划包括下周的论文翻译工作，本次活动结束时的成果展览，开学时的实验室大扫除，以及接下来一个月来明星同学的论文学习方向。