返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤四:利用R进行数据可视化分析》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载
本教程介绍大数据课程实验案例“网站用户行为分析”的第四个步骤,利用R进行数据可视化分析。在实践本步骤之前,请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive,第二个步骤——Hive数据分析,和第三个步骤:Hive、MySQL、HBase数据互导。这里假设你已经完成了前面的这三个步骤。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。在实际的案例中,更多的是跟其他数据分析工具结合起来,如:MySQL,Hive等。这里使用R的ggplot2绘图工具和recharts的绘图工具来进行可视化分析消费者行为的实例。
继续阅读
在Linux系统中安装sbt
sbt是一款Spark用来对scala编写程序进行打包的工具,这里简单介绍sbt的安装过程,感兴趣的读者可以参考[官网资料](http://www.scala-sbt.org/0.13/docs/zh-cn/Manual-Installation.html)了解更多关于sbt的内容。
Scala入门:fold操作
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
折叠(fold)操作和reduce(归约)操作比较类似。fold操作需要从一个初始的“种子”值开始,并以该值作为上下文,处理集合中的每个元素。
继续阅读
Spark入门:DStream输出操作
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
在Spark应用中,外部系统经常需要使用到Spark DStream处理后的数据,因此,需要采用输出操作把DStream的数据输出到数据库或者文件系统中。
继续阅读
利用Atom构建LaTex文档开发环境
LaTeX是一种基于ΤΕΧ的排版系统,因此它非常适用于生成高印刷质量的科技和数学类文档。这里介绍平时使用编辑Latex的开发环境和编辑工具。
继续阅读
LaTex 简易文档
LaTeX是一种基于ΤΕΧ的排版系统,对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。
本文主要记录LaTex的语法文档。学习前,请先访问利用Atom构建LaTex文档开发环境,搭建好文档开发环境。
继续阅读
日志采集工具Flume的安装与使用方法
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
继续阅读
Spark入门:DStream转换操作
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
DStream转换操作包括无状态转换和有状态转换。
无状态转换:每个批次的处理不依赖于之前批次的数据。
有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。
继续阅读
Spark入门:Apache Kafka作为DStream数据源
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Kafka是非常流行的日志采集系统,可以作为DStream的高级数据源。
继续阅读
Kafka的安装和简单实例测试
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。下面介绍有关Kafka的简单安装和使用,想全面了解Kafka,请访问Kafka的官方博客
继续阅读