2014暑假奋战第8次小组讨论会并聚餐

林子雨老师团队2014年暑假拼血奋战70天活动第8次小组讨论会会议纪要

会议时间:2014年8月16日周六下午5点20分到6点30分(上半场),晚上8点10分到9点20分(下半场)

会议地点:厦门大学海韵园科研二号楼303室

与会者:林子雨、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文、曾聪、马驰

会议纪要撰写:李雨倩

会议报告PPT下载:请到本文附件中下载报告PPT。

2014年8月16日周六下午5点20分到6点30分(上半场),晚上8点10分到9点20分(下半场),林子雨老师团队举行本学期第8次小组讨论会。曾聪同学做了题为《HBase简介》的报告,蔡珉星同学做了题为《-数据倾斜情况下基于MapReduce的join算法优化》的报告。讨论会上半场结束后,师生到厦大学生公寓大排档举行聚餐,然后回到实验室继续举行下半场讨论会。以下为详细内容:

(1)曾聪同学的报告《Hbase简介》先从总体上介绍了Hbase在Hadoop架构中的角色与作用,并介绍了Hbase的特点、数据模型、基本概念以及它的物理模型。接着详细阐述了Hbase的物理存储细节,以及客户端对数据或模式访问的具体实现步骤。最后介绍了Hbase的工作流程——Region定位、更新过程、region分配、region server上下线与master上下线。

(2)蔡珉星同学的报告《数据倾斜情况下基于MapReduce的Join算法优化》首先简单介绍了基于MapReduce的Join算法,以及对现在数据倾斜情况下Join算法存在优化思路进行了分析——改进Partition。接着以具体实例介绍了如何在两表连接中对Partition进行改进以避免数据倾斜的问题,提出了两种解决方法——采样和简单范围分区。最后针对基于MapReduce Join算法的另一个优化点——如何在MapReduce框架中的Copy阶段减少网络传输量,介绍了一个解决算法LEEN。