大数据案例-步骤零:实验环境准备

返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤零:实验环境准备》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“网站用户行为分析”的实验环境准备工作。

需要注意的是,本网页介绍的所有软件安装,实际上,到了后面各个实验步骤中,还会再次提示并介绍如何安装这些软件。所以,本网页相当于是案例所需软件安装的一个汇总,读者可以根据本网页说明,先完成全部系统和软件的安装,再进入实验步骤一、二、三、四(这样,在后面步骤中就不需要重复安装这些软件),或者也可以忽略本网页内容,直接进入到后面的实验步骤一、二、三、四(但是,就需要到时候动手安装这些软件)。
继续阅读

大数据案例-步骤四:利用R进行数据可视化分析

返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤四:利用R进行数据可视化分析》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“网站用户行为分析”的第四个步骤,利用R进行数据可视化分析。在实践本步骤之前,请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive,第二个步骤——Hive数据分析,和第三个步骤:Hive、MySQL、HBase数据互导。这里假设你已经完成了前面的这三个步骤。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。在实际的案例中,更多的是跟其他数据分析工具结合起来,如:MySQL,Hive等。这里使用R的ggplot2绘图工具和recharts的绘图工具来进行可视化分析消费者行为的实例。
继续阅读

在Linux系统中安装sbt

sbt是一款Spark用来对scala编写程序进行打包的工具,这里简单介绍sbt的安装过程,感兴趣的读者可以参考[官网资料](http://www.scala-sbt.org/0.13/docs/zh-cn/Manual-Installation.html)了解更多关于sbt的内容。

继续阅读

Scala入门:fold操作

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

折叠(fold)操作和reduce(归约)操作比较类似。fold操作需要从一个初始的“种子”值开始,并以该值作为上下文,处理集合中的每个元素。
继续阅读

Spark入门:DStream输出操作

子雨大数据之Spark入门
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

在Spark应用中,外部系统经常需要使用到Spark DStream处理后的数据,因此,需要采用输出操作把DStream的数据输出到数据库或者文件系统中。
继续阅读

LaTex 简易文档

LaTeX是一种基于ΤΕΧ的排版系统,对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。
本文主要记录LaTex的语法文档。学习前,请先访问利用Atom构建LaTex文档开发环境,搭建好文档开发环境。
继续阅读

日志采集工具Flume的安装与使用方法

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
继续阅读

Spark入门:DStream转换操作

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

DStream转换操作包括无状态转换和有状态转换。
无状态转换:每个批次的处理不依赖于之前批次的数据。
有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。
继续阅读