实验室举行小组讨论会

2013年7月20日(周六)上午9点到12点,数据库实验室部分老师和学生举行小组讨论会,参加人员包括林子雨、刘颖杰、叶林宝、陈思哲、余丽娟、王娟和王雪儿。

厦门大学,数据库实验室,林子雨,刘颖杰,叶林宝,陈思哲、余丽娟、王娟、王雪儿

数据库实验室林子雨老师小组2012—2013学年第三学期

第一次小组会议会议纪要

会议时间:2013年7月20日(星期六)上午9点到12点

会议地点:厦门大学海韵园科研二号楼303室

与会者:林子雨、刘颖杰、叶林宝、陈思哲、余丽娟、王娟和王雪儿

会议纪要撰写:刘颖杰

会议内容:

厦门大学计算机系数据库实验室林子雨老师小组2012—2013学年第三学期第一次小组会议在2013年7月20日召开,会议首先由叶林宝同学作题为《Learning very fast decision tree from uncertain data streams with positive and unlabeled samples》的报告,报告过程中,林子雨老师与其他几位同学针对报告进行了讨论,分析了该论文的优缺点;然后由刘颖杰同学做综合考试汇报即对研一的学习情况作总结。最后,林子雨老师对本次会议做出了肯定。

1. 叶林宝同学作题为《Learning very fast decision tree from uncertain data streams with positive and unlabeled samples》的论文阅读报告

叶林宝同学此次的报告的主要内容是介绍基于不确定性数据流以及正例与未标样本的快速决策树算法。该算法在时间复杂度上对比与其它具有相应特性的算法有着明显的优势,而在分类的准确度上与其它优秀的算法又不相伯仲。

1.1相关概念

(1)不确定性数据:样本中的各个属性中的以一定的概率取到某个属性值,即使是。

(2)数据流:系统在短时间内收集到大流的数据。这些数据在分类问题上不易于保存、以及需要用较高的时间复杂度来计算这些数据。

(3)概念漂移:形象上来说将如每个人在不同的阶段的审美观可能不同,可能A认为胖的人比较漂亮,而B认为瘦的人比较漂亮。

(4)正例以及未标样本:采集到的样本中,有些样本已经被标记为正例,而有些样本是尚未被标记的。

1.2论文要点

(1)文章中使用fractional sample的思想来划分当前节点中的所有样本,使得这些样本依据某种概率分布分配到相应的子节点中。同时修改相应的权重,概率分布函数等。

(2)对于当前节点最优分割属性的选择,文章采用变形的信息增益方法。但是该方法存在一个明显的问题,那就是需要不断的统计之前使用过的数据流中的某些数据,而根据大数据流的特点,我们知道实时更新的数据更具统计价值。

(3)高效实用数据流即上述存在问题的解决,文章提出了使用高斯近似的方法。该方法涉及到以及步骤:初始化统计数据、离散化、插入新的样本、计算信息增益、删除过期样本。

2. 刘颖杰同学做综合考试汇报

对于过去的研一,刘颖杰同学对自己所选课程分别作了点评,并分享了自己的收获。随后,刘颖杰同学又介绍了自己在研一时利用课余时间所学习的其他内容,分别是java,linux,c++等,并总结了自己的不足,同时对研二的学习生活作了初步的安排。