实验室暑假第五次讨论会

数据库实验室林子雨老师小组2012—2013学年暑假

第五次小组会议会议纪要

会议时间:2013年9月7日(星期六)上午10点到11:40

会议地点:厦门大学海韵园科研二号楼303室

与会者:林子雨、刘颖杰、叶林宝

会议纪要撰写:叶林宝

会议内容:

厦门大学计算机系数据库实验室林子雨老师小组2012—2013学年暑假第五次小组会议在2013年9月7日举行,会议由刘颖杰同学汇报关于闪存数据库研究方向的一篇论文,报告过程中刘颖杰提出了关于论文中存在的不足的自己的看法,同林子雨老师进行了交流。随后叶林宝同学汇报了关于基于不确定数据的代价敏感决策树算法,同时和林老师讨论了提出的改进之处是否可行。

1刘颖杰同学作题为《An efficient index buffer management scheme for implementing a B-tree on NAND flash memory》的论文阅读报告

文章首先是对著名的BFTL索引算法进行了详细的介绍,并分析它的缺点。通过BFTL处理具体实例的过程,指出了BFTL的不足:1、节点分散导致查询时访问过多的页面;2、节点转换表不断增大且压缩开销不乐观;3、缓冲区中冗余数据过多

随后作者根据BFTL的缺点提出了自己的IBSF索引结构。新的结构改变B+tree存储结构,每一个页存储一个节点,由此在查询时,访问节点可以仅访问一个页,也因此省去了节点转换表;并且,每当有新的更新数据到来,系统将扫描已存在更新信息,将他们汇总合并,更好的利用了缓存空间;在缓冲区选择换出单元时,该算法采用了先进先出策略。

最后作者从理论和实验上对IBSF和BFTL进行了比较,结果显示IBSF有效得减少了写请求操作,起到了一定的效果。

2、叶林宝同学汇报了题为《Cost-Sensitive Decision Tree for Uncertain Data》的论文,这篇文章讲述的是一种基于不确定数据的代价敏感决策树算法。同时就论文中存在的不足同大伙进行了交流。

论文要点:

(1)算法的应用背景:医疗诊断、欺诈检测、贷款等。算法的目的是研究如何最大程度的减少决策树的误分类代价和属性检测代价。

(2)算法的核心思想:

1)在构建决策树模型阶段,算法选择属性的标准是该属性能最大程度的减少误分类代价。

2)在分类测试阶段,当一个样本被误分类为正例的代价小于误分类为反例的代价时,算法将该样例判为正例,否则判为反例。

(3)本篇论文将其算法得到的结果同一般基于不确定性决策树算法得到的结果对比,表明其能够有效地获得代价最少的分类结果(即一个样例应该分类为正例还是反例)。

文章的不足之处:

(1)未对数值属性的处理进行详细阐述。

(2)算法在分类阶段考虑了所有属性的代价成本,而不是所选择的属性的代价成本。

(3)文章只针对算法获得的代价效果进行讨论,未对算法获得的预测准确率进行讨论。。