大数据

Spark2.1.0入门：RDD编程

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

通过前面几章的介绍，我们已经了解了Spark的运行架构和RDD设计与运行原理，并介绍了RDD操作的两种类型：转换操作和行动操作。
同时，我们前面通过一个简单的WordCount实例，也大概介绍了RDD的几种简单操作。现在我们介绍更多关于RDD编程的内容。
Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。
继续阅读

Spark2.1.0入门：第一个Spark应用程序：WordCount

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载。版权所有，侵权必究！
[返回Spark教程首页]

前面已经学习了Spark安装，完成了实验环境的搭建，并且学习了Spark运行架构和RDD设计原理，同时，我们还学习了Scala编程的基本语法，有了这些基础知识作为铺垫，现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。
继续阅读

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala，因此，“Spark安装”这个部分的教程，假设读者的计算机上，没有安装Scala，也没有安装Java（当然了，如果已经安装Java和Scala，也没有关系，依然可以继续按照本教程进行安装），也就是说，你的计算机目前只有Linux系统，其他的软件和环境都没有安装（没有Java，没有Scala，没有Hadoop，没有Spark），需要从零开始安装所有大数据相关软件。下面，需要你在自己的Linux系统上（笔者采用的Linux系统是Ubuntu16.04），首先安装Java和Hadoop，然后再安装Spark（Spark安装好以后，里面就默认包含了Scala解释器）。本教程的具体运行环境如下：

Ubuntu16.04以上
Hadoop 2.7.1以上
Java JDK 1.8以上
Spark 2.1.0

继续阅读

Hadoop安装

【本博客内容版权归厦门大学数据库实验室所有，未经许可，请勿转载！】

Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。
继续阅读

Linux系统安装

本博客内容版权归厦门大学数据库实验室所有，未经许可，请勿转载！

在Linux系统各个发行版中，CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高，网络上资料最是齐全，所以我们建议使用CentOS 6.4系统或Ubuntu LTS 14.04。
继续阅读

使用Docker搭建Hadoop分布式集群

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Hadoop 2.7分布式集群环境搭建已经分享了如何在本地搭建Hadoop集群；这篇博客分析下如何在Docker上搭建Hadoop集群；首先，我们需要在Ubuntu上安装Docker;

继续阅读

在集群上运行Spark应用程序

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark应用程序在集群中运行时，需要借助于集群管理器（包括本地集群管理器、YARN、Mesos）来为其实现资源管理调度服务，实现对集群中各个机器的访问（可以参考前面章节的内容：Spark集群部署模式）。这里通过简单的示例介绍其中两种：独立集群管理器和Hadoop Yarn集群管理器。通过介绍，我们可以了解到如何在这两种集群管理器上运行Spark应用程序。本篇博客的上一篇博客内容是：Spark集群环境搭建
 继续阅读

继续阅读

厦大数据库实验室博客

大数据

Spark2.1.0入门：RDD编程

Spark2.1.0入门：第一个Spark应用程序：WordCount

Spark2.1.0入门：Spark的安装和使用

Hadoop安装

Linux系统安装

使用Docker搭建Hadoop分布式集群

在集群上运行Spark应用程序

Spark2.0入门：DataFrame与RDD的区别

Spark2.0入门 Spark SQL简介

Spark2.0入门：连接Hive读写数据（DataFrame）