Author: Ruan Rongcheng

利用R绘图分析消费者行为实例

R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里使用R的ggplot2绘图工具和recharts的绘图工具来进行可视化分析消费者行为的实例。
继续阅读

ubuntu 64位解决Hadoop Native Library(编译hadoop-src)

Hadoop下载页面提供两种下载文件包,一个是已经编译好的(32位)Hadoop压缩包,另一个是Hadoop-src源代码压缩包。一般我们直接下载Hadoop压缩包直接使用即可。但是在Ubuntu 64位上成功运行Hadoop或执行Hadoop Shell命令,都会出现以下提醒:

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

这是因为官网提供的Hadoop压缩包是32位,而我们使用Linux系统是64位,这就导致系统本地库不一致的提醒。当然这个提醒,并不会影响Hadoop的正常使用。要解决这个方法,只需要下载Hadoop官网提供Hadoop-src源代码压缩包在本地64位系统上重新编译即可。
继续阅读

Linux-expect详解

Expect是一个用来处理交互的命令。借助Expect,我们可以将交互过程写在一个脚本上,使之自动化完成。在使用Shell实现一键安装包的时候,用到expect来实现自动化交互的功能。例如,我们在实现ssh localhost登陆的时候,让终端自动输入yes并回车。
继续阅读

Linux-Shell学习指南

在Linux系统中,shell仍然是一个非常灵活的工具。Shell不仅仅是命令的收集,而且是一门非常棒的编程语言。您可以通过使用shell使大量的任务自动化,特别是在部署一键安装开发环境的情况.
继续阅读

Linux Shell中的管道命令

Shell中管道命令操作符为"|",仅能处理前面的一个指令传出的正确输出信息,也就是标准输出的信息(没法处理错误信息)。然后传递给下一个命令,作为标准的输入。

继续阅读

macOS 安装Hbase-伪分布式配置

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

本指南详细指引读者在macOS系统环境下安装Hbase。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第4章节,再结合本指南进行学习。

HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。
本教程将指导如何在苹果macOS系统安装Hbase。

继续阅读

macOS 安装Hadoop教程-单机-伪分布式配置

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

本指南详细指引读者在macOS系统环境下安装Hadoop。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第2章节,再结合本指南进行学习。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.本教程将指导如何用苹果macOS系统安装Hadoop。

继续阅读

macOS 安装Homebrew和常用命令

熟悉Ubuntu的同学一定了解ubuntu的apt-get命令。这强大的软件包管理系统使得在Ubuntu系统下安装软件十分方便。macOS系统同样拥有此类的软件包管理系统Homebrew. Homebrew 在macOS系统中安装hadoop、hbase起到重要作用。

继续阅读

大数据原理与应用 第十六章 Spark 学习指南


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

注:第十六章Spark,本章为2016年新增章节,不在2015年8月1日由人民邮电出版社出版发行的《大数据技术原理与应用》中,会被放入到教材的下一个版本中。

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第16章节(点击这里下载第十六章Spark的pdf电子书),再结合本指南进行学习。

继续阅读