林子雨老师团队举行本学期第2次讨论会

数据库实验室林子雨老师团队2013—2014学年秋季学期

第二次小组讨论会会议纪要

会议时间:2013年9月28日(星期六)下午3点到5:30

会议地点:厦门大学海韵园科研二号楼303室

与会者:林子雨、刘颖杰、叶林宝、蔡珉星、李雨倩、张晨、谢荣东、罗道文

会议纪要:刘颖杰

会议内容:

厦门大学计算机系数据库实验室林子雨老师小组2013-2014学年第一学期第二次小组会议在2013年9月29日举行,会议首先由蔡珉星同学报告流计算的基本框架,随后刘颖杰同学报告自己论文的创新点,叶林宝同学讲解自己论文的创新思路。会议期间,林子雨老师及其他同学对报告提出了问题以及自己的想法。

1. 蔡珉星同学作关于《流计算》的学习汇报。

蔡珉星同学此次的报告首先介绍了流计算技术产生的背景:随着大数据时代数据量激增,以及对实时性的要求,针对流数据的处理产生了流计算技术。

目前对大量数据的处理主要使用Hadoop来进行批处理,准确性高但实时性不够强。对于大量产生、源源不断的流数据,为实现实时性,需采用流计算来处理。流计算可广泛应用于实时广告推荐、实时个性化推荐、实时分析系统等应用场景。

接着报告介绍了目前较为流行的开源实时流计算框架–Twitter Storm,重点介绍了Storm的设计理念和设计框架。Storm的主要概念有Streams(没有边界的Tuple序列)、Spouts(Stream源)、Bolts(消息处理者)、Topology(由Spouts和Bolts组成,描述任务的具体执行)等。Storm可简单、高效、可靠的处理大量的流数据。同时报告也介绍了Storm独特的框架设计,利用Zookeeper来保存中间状态,使Storm的后台进程可从失败中恢复,由此保证每个消息都能得到处理,增强了系统的稳定性。

最后报告以一个单词统计的例子来介绍Storm的具体实现和工作流程,并对当前的流计算框架做了一个汇总。提出了两种替换策略,分别为最大组换出策略和Cost-based Policy,后者综合考虑了组内更新信息情况和组的大小信息,并能取得较好的结果,

2. 刘颖杰同学报告自己的论文创新点。

针对数据库索引的IBSF算法,刘颖杰同学在此基础上,针对其缓冲区的数据管理方式用链表提出了改进方案。

(1)首先对于存储于缓冲区中的修改信息,才用带头节点的链表存储针对同一个节点的存储信息,并使用另一条链表连接所有的头节点,这样使新的更新到来之后的遍历合并操作不必遍历整个缓冲区

(2)在缓冲区替换策略中,我们采用类似PB-LRU的替换算法,结合冷热标识位以及每一个节点的链表长度来选择替换出缓冲区的节点信息。同时兼顾节点信息的所占空间大小和冷热性质来优化替换策略。即维护一个冷区和热区,然后再有替换需求时,替换冷区中的最长的节点链表。同时,当新的更新信息到来,冷热区的节点链表会发生变化。

 

3. 叶林宝同学同林子雨老师探讨了论文的创作思路

(1)在数据离散化过程中引入“代价”,测试代价高的属性其离散化后的属性值个数应该相应的多一些,进而能够减少误分类代价。

(2)替换现有的在训练阶段使用的启发式公式,考虑如何有效的将“代价”与“信息熵”结合起来。

(3)在利用决策树建模后得到的模型,进行一次优化,使得最终尽可能的获得全局最优的模型。