实验室暑假第二次讨论会今天上午举行

数据库实验室林子雨老师小组2012—2013学年第三学期

第二次小组会议会议纪要

会议时间:2013年8月10日(星期六)上午9点到11:30

会议地点:厦门大学海韵园科研二号楼303室

与会者:林子雨、刘颖杰、叶林宝、谢润泉

会议纪要撰写:刘颖杰

会议内容:

厦门大学计算机系数据库实验室林子雨老师小组2012—2013学年第三学期第二次小组会议在2013年8月10日召开,会议首先由刘颖杰同学汇报过去一周中对闪存数据库研究方向的一些研究,报告过程中,林子雨老师针对闪存数据库的研究方向谈了自己的看法,并提出一些指导;然后由叶林宝同学作题为《Decision Tree for Uncertain Data》的论文阅读报告,其间林子雨老师与其他几位同学提出问题并讨论了论文的一些要点。

  1. 刘颖杰同学作汇报过去一周中自己对闪存数据库研究的一些看法

刘颖杰同学首先总结了闪存数据库与机械硬盘的关键不同点:1)读写速度相差显著;2)写入以页为单位;3)写前擦除;4)寻道时间可以忽略;5)磁盘碎片更易接受;6)异地更新磨损均衡。这些不同点将作为今后阅读论文并产生新想法的理论出发点。

随后,刘颖杰同学列举了当前较为热门的闪存数据库论文方向:1)索引问题,如B+树更新;2)缓冲区管理,如减少写操作次数;3)查询优化,如链接操作带来的写操作;4)事务管理,如事务恢复如何减少写操作

最后刘颖杰同学粗略介绍了几篇论文中关于闪存数据库索引方面的算法,分别为LM-B + TREE,BFTL,IBSF以及RBFTL,并最终确定将在接下来的一段时间内继续阅读闪存数据库索引相关方面的论文。

2. 叶林宝同学作题为《Decision Tree for Uncertain Data》的论文阅读报告

叶林宝同学此次的报告的主要内容有:(1)如何构建基于不确定性数据的决策树模型。(2)对比Averaging approach 和Distribution-based approach的分类精度。(3)对比Averaging approach 和Distribution-based approach的分类精度。(4)减枝技术的算法实现。(5)减枝性能分析

论文要点:

(1)基于已经构建好的决策树模型对不确定性数据进行分类。由于实际的数据在收集过程中可能受噪声、重复测量、时间序列等客观因素的影响,所以就最终收集到的数据具有一定的不确定性。文章利用averaging和distributed-based(高斯分布和均匀分布) 两种方法模拟构建不确定性数据。实验证明对不确定性数据进行分类时,运用基于概率分布的方法相比直接对不确定性数据取均值的方法,分类效果前者更好。

(2)如何构造基于不缺性数据的决策树呢?文章采用与传统的构建方法一致,但是基于不确定数据的特性,文章提出了一种高效的减枝方法,运用该方法能有效减少许多不必要的信息熵计算。而信息熵的计算是构建决策树模型中最耗时的操作。

(3)文章对该减枝技术给出了相关定理以及相关证明,同时也给出了四种减枝算法,他们分别是UDT-BP,UDT-LP,UDT-GP,UDT-ES。通过实验发现四种减枝效果都好于UDT,同时UDT-ES效果最好。