林子雨老师团队2014年暑假拼血奋战70天活动第3次小组讨论会会议纪要
会议时间:2014年7月12日周六上午9点到12点
会议地点:厦门大学海韵园科研二号楼303室
与会者:林子雨、叶林宝、蔡珉星、李雨倩、罗道文、曾聪
会议纪要撰写:蔡珉星
会议报告PPT下载:请到本文附件中下载报告PPT。
蔡珉星同学做了题为《MapReduce编程简介》的报告,李雨倩同学做了题为《MapReduce连接》的报告,以下为会议的主要内容:
(1) 蔡珉星同学的报告《MapReduce编程简介》首先介绍了Hadoop、MapReduce的背景知识,接着介绍了MapReduce的编程思想–以分而治之的方式来处理大数据计算任务,并介绍了MapReduce的两个抽象编程接口Map(映射)和Reduce(规约)。然后以三个实例:单词统计、提取最高气温、文档倒排索引,结合代码与运行过程,详细的介绍了如何编程实现MapReduce。
(2)李雨倩同学的报告《MapReduce连接》介绍的是如何使用MapReduce来实现数据库中的连接(join)操作,首先简要的回顾了数据库中连接的概念,接着介绍了MapReduce中的三种连接策略:重分区连接、复制连接、半连接。其中重分区连接是在Reduce端进行连接的,适用于连接两个或多个大型数据集;复制连接和半连接是在Map端进行连接的,复制连接适用于待连接的数据集中有一个数据集小到可以完全放在缓存中,半连接则适用于虽然有一个数据集非常大,但这个数据集可以通过过滤后,小到可以放在缓存中的情景。报告结合代码讲解了这三种策略的不同,并分析了其各自的适用场景。