Author: 给力星

大数据技术原理与应用 第十六章 Spark 学习指南

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

注:第十六章Spark,本章为2016年新增章节,不在2015年8月1日由人民邮电出版社出版发行的《大数据技术原理与应用》中,会被放入到教材的下一个版本中。

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第16章节,再结合本指南进行学习。

继续阅读

大数据技术原理与应用 第八章 流计算 学习指南

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

Storm 是目前使用最为广泛的开源流计算框架,可用于实时日志分析、个性化推荐、实时监控等应用场景中。本指南将介绍 Storm 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第8章节,再结合本指南进行学习。

继续阅读

Ubuntu/CentOS安装Python机器学习包

Python 虽然是一门脚本语言,但借助诸如 Numpy、Scipy 等功能强大的 package(包),如今 Python 在科学计算、机器学习、数据挖掘方面都有较为广泛的应用。本教程介绍如何在 Ubuntu/CentOS 中安装常用的 Python 机器学习包,包括 NumPy、pandas、SciPy、StatsModels、scikit-learn、matplotlib。

继续阅读

Windows安装Python机器学习包

Python 虽然是一门脚本语言,但借助诸如 Numpy、Scipy 等功能强大的 package(包),如今 Python 在科学计算、机器学习、数据挖掘方面都有较为广泛的应用。本教程介绍如何在 Windows 中安装常用的 Python 机器学习包,包括 NumPy、pandas、SciPy、StatsModels、scikit-learn、matplotlib。

继续阅读

Python安装与基本使用_Windows/Ubuntu

Python 是一种跨平台的开源编程语言,它功能强大且简单易学。Python 目前主要有两个版本:2.x 版本和 3.x 版本。本教程基于 Python2.7,简单介绍了 Windows、Ubuntu 中 Python 的安装与基本使用。

继续阅读

Spark快速入门指南 - Spark安装与基础使用

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。

继续阅读

解决Maven、sbt无法下载依赖包的问题

在编写使用 Maven 编译运行 Storm 代码教程时遇到了一个比较棘手的问题,首次编译代码需要下载相应的依赖包,有时会下载失败,一直以为多试几次就可以,但后来发现,并非是简单的网络问题,依赖包链接(clojars.org)在浏览器中可以打开,却始终无法通过 Maven 进行下载。困扰了好几天终于解决了,在此记录一下遇到的问题以及解决方法。

继续阅读

使用Maven编译运行Storm入门代码(Storm starter)

Storm 官方提供了入门代码(Storm starter),即 Storm安装教程 中所运行的实例(storm-starter-topologies-0.9.6.jar),该入门代码位于 /usr/local/storm/examples/storm-starter/ 中,包含多个例子,对于学习 Storm 很有帮助。同时官方也有给出了详细的使用说明(上述目录下的 README.markdown 文件),本教程基本是按照官方使用说明来介绍如何使用 Maven 来编译代码,以运行于 Storm 中。

继续阅读

Storm安装教程_CentOS6.4/Storm0.9.6

分布式实时流计算框架 Storm 广泛应用于实时日志分析、个性化推荐、实时监控等应用场景中。本教程介绍了如何在单机上安装、运行 Storm。本教程在 CentOS 6.4 系统、Storm 0.9.6 版本的环境中验证通过,理论上同样适用于 Ubuntu 等 Linux 系统。

本教程的具体运行环境如下:

  • CentOS 6.4
  • Storm 0.9.6
  • Java JDK 1.7
  • ZooKeeper 3.4.6
  • Python 2.6

继续阅读