厦大数据库实验室博客

Spark入门：DStream操作概述

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

DStream是Spark Streaming的编程模型，DStream的操作包括输入、转换和输出。
继续阅读

Spark入门：套接字流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。Spark Streaming自身就提供了一个简单的样例程序，我们先直接演示这个程序，看看效果，然后再动手编写程序打包运行。
继续阅读

Spark入门：文件流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark支持从兼容HDFS API的文件系统中读取数据，创建数据流。
继续阅读

大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive 学习指南

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明：本指南为厦门大学林子雨开设的《大数据技术原理与应用》课程新增配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】

本指南介绍了Hive，并详细指引读者安装Hive。前面第几章学习指南已经指导大家安装Linux操作系统，并安装配置了Hadoop，但是这只表明我们已经安装好了Hadoop分布式文件系统，而Hive需要另外下载安装，本指南就是详细指导大家安装并配置Hive，完成后大家可以结合厦门大学林子雨开设的《大数据技术原理与应用》课程第14章节进行深入学习。另外，本章有配套在线授课视频和电子书，可以点击这里访问。

继续阅读

Spark入门：Spark Streaming简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark Streaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。
继续阅读

Spark入门：流计算简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase存放大量的静态数据，由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算，实时计算最重要的一个需求是能够实时得到计算结果，一般要求响应时间为秒级。当只需要处理少量数据时，实时计算并不是问题；但是，在大数据时代，不仅数据格式复杂、来源众多，而且数据量巨大，这就对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算，应运而生。
继续阅读

Spark入门：DStream操作概述

Spark入门：套接字流(DStream)

Spark入门：文件流(DStream)

大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive 学习指南

Spark入门：Spark Streaming简介

Spark入门：流计算简介

大数据案例-步骤三：Hive、MySQL、HBase数据互导

大数据案例-步骤二：Hive数据分析

Spark入门: Spark SQL简介

Spark入门：DataFrame