大数据

Flume_Kafka_SparkStreaming实现词频统计

任务描述

配置Kafka和Flume,把Flume Source类别设置为netcat,绑定到localhost的33333端口,通过“telnet localhost 33333”命令向Flume Source发送消息,然后,让Flume把消息发送给Kafka,并让Kafa发送消息到Spark Streaming,Spark Streaming组件收到各种单词消息后,对单词进行词频统计,在屏幕上打印出每个单词出现了几次。
继续阅读

在Windows系统中安装Docker

本教程版权归厦门大学数据库实验室所有,由厦门大学林子雨老师亲自撰写,转载请注明出处,请勿用于商业用途。
本教程介绍如何在Windows系统中安装Docker。
继续阅读

在ECS实例的Ubuntu系统中安装MySQL5.7

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
MySQL是非常流行的关系数据库,在企业中得到了广泛的应用,大数据应用中,会涉及到Spark和MySQL之间的交互,以及Hadoop和MySQL之间的交互。本博客介绍如何在ECS实例的Ubuntu系统中安装MySQL。
继续阅读

在ECS实例的Ubuntu系统中安装HBase

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
HBase是Hadoop生态系统中的一个组件,是一种分布式数据库,可以支持数百万列、超过10亿行的数据的存储。本博客介绍如何在ECS实例的Ubuntu系统中安装HBase。
继续阅读

在ECS实例的Ubuntu系统中安装编译打包工具Maven

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在对使用 Scala 编写的Spark程序进行编译打包时,可以使用 sbt 工具进行编译打包,也可以使用Maven工具进行编译打包。本文介绍如何使用 Maven工具进行编译打包,另一篇博客介绍如何使用sbt工具进行编译打包。这里会通过一个简单的应用程序 SimpleApp 来演示如何通过 Spark API 编写一个独立应用程序,并且在Shell环境中使用Maven进行编译打包。
继续阅读

在ECS实例的Ubuntu系统中安装编译打包工具sbt

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在对使用 Scala 编写的Spark程序进行编译打包时,可以使用 sbt 工具进行编译打包,也可以使用Maven工具进行编译打包。本文介绍如何使用 sbt 工具进行编译打包,下一篇博客会介绍如何使用Maven工具进行编译打包。这里会通过一个简单的应用程序 SimpleApp 来演示如何通过 Spark API 编写一个独立应用程序,并且在Shell环境中使用sbt进行编译打包。
继续阅读

在阿里云ECS的Ubuntu中安装Spark

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
现在介绍如何在阿里云ECS的Ubuntu系统中安装Spark,本教程采用的版本是Spark2.1.0。Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里介绍Local模式(单机模式)的 Spark安装。
继续阅读