大数据技术原理与应用 第八章 流计算 学习指南

大数据技术原理与应用

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

Storm 是目前使用最为广泛的开源流计算框架,可用于实时日志分析、个性化推荐、实时监控等应用场景中。本指南将介绍 Storm 的安装与基本使用。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第8章节,再结合本指南进行学习。

一、安装Storm

具体安装过程请浏览:Storm安装教程_CentOS6.4/Storm0.9.6

该教程介绍了单机中 Storm 的安装,并且介绍了在 Storm 中运行 WordCount 的例子,帮助读者熟悉 Storm 的运行流程。该教程以 CentOS 6.4 作为演示环境,也可适用于 Ubuntu 系统。该教程的具体运行环境如下:

  • CentOS 6.4
  • Storm 0.9.6
  • Java JDK 1.7
  • ZooKeeper 3.4.6
  • Python 2.6

除了 Python 一般是系统自带的以外,还需要安装 Java JDK 以及 Zookeeper(开源的分布式应用程序协调服务)。

二、编译运行Storm入门代码

具体过程请浏览:使用Maven编译运行Storm入门代码(Storm starter)

Storm 官方提供了一些入门代码(Storm starter),该入门代码位于 /usr/local/storm/examples/storm-starter/ 中,包含多个例子的源代码,对于学习 Storm 编程很有帮助。

该教程首先介绍了 Maven (Java 社区中最强大的项目管理和项目构建工具)以及 Maven 的安装,接着介绍如何通过 Maven 来编译、运行 Storm 代码。只要将 Maven 安装好,编译 Storm 代码就很容易了,通过简单的命令即可完成。

如果需要进一步学习 Storm 编程的,可参照官方说明,使用 Intellij 等 IDE 来进行编程会比较方便。