厦大数据库实验室博客 | 总结、分享、收获

Spark入门：DataFrame与RDD的区别

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。
继续阅读

Spark入门:从RDD转换得到DataFrame

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark官网提供了两种方法来实现从RDD转换得到DataFrame，第一种方法是，利用反射来推断包含特定类型对象的RDD的schema；第二种方法是，使用编程接口，构造一个schema并将其应用在已知的RDD上。
继续阅读

Spark入门：连接Hive读写数据（DataFrame）

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Hive是基于Hadoop的数据仓库（要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南）。本节内容介绍Spark如何连接Hive并读写数据。

继续阅读

Spark入门：RDD队列流（DStream）

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

在调试Spark Streaming应用程序的时候，我们可以使用streamingContext.queueStream(queueOfRDD)创建基于RDD队列的DStream。
继续阅读

Spark入门：DStream操作概述

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

DStream是Spark Streaming的编程模型，DStream的操作包括输入、转换和输出。
继续阅读

Spark入门：套接字流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。Spark Streaming自身就提供了一个简单的样例程序，我们先直接演示这个程序，看看效果，然后再动手编写程序打包运行。
继续阅读

Spark入门：文件流(DStream)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark支持从兼容HDFS API的文件系统中读取数据，创建数据流。
继续阅读

大数据技术原理与应用第十四章基于Hadoop的数据仓库Hive 学习指南

本指南介绍了Hive，并详细指引读者安装Hive。前面第几章学习指南已经指导大家安装Linux操作系统，并安装配置了Hadoop，但是这只表明我们已经安装好了Hadoop分布式文件系统，而Hive需要另外下载安装，本指南就是详细指导大家安装并配置Hive，完成后大家可以结合厦门大学林子雨开设的《大数据技术原理与应用》课程第14章节进行深入学习。另外，本章有配套在线授课视频和电子书，可以点击这里访问。

继续阅读

Spark入门：Spark Streaming简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark Streaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。
继续阅读

Spark入门：流计算简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase存放大量的静态数据，由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算，实时计算最重要的一个需求是能够实时得到计算结果，一般要求响应时间为秒级。当只需要处理少量数据时，实时计算并不是问题；但是，在大数据时代，不仅数据格式复杂、来源众多，而且数据量巨大，这就对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算，应运而生。
继续阅读