Author: 罗道文

Spark2.0入门:Structured Streaming简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

Structured Streaming是Spark2.0新增的可扩展和高容错性的实时计算框架,它构建于Spark SQL引擎,当实时数据持续到达时,Spark SQL引擎会不断的计算和更新处理结果。类似于静态结构化数据的批处理,Structured Streaming可以用同样的方式进行流计算。因此,Structured Streaming非常适合处理结构化的实时数据。
之前在学习Spark Streaming章节的内容时,我们知道,Spark Streaming采用的数据抽象是DStream,而本质上就是RDD,对数据流的操作就是针对RDD的操作。而在Spark 2.0以后,Spark设计了新的组件Structured Streaming,它把流式计算也统一到DataFrame里去了。如果Structured Streaming 仅仅是换个API,或者能够支持DataFrame操作,那么它并没有突出之处,因为在Spark2.0之前通过某些封装也能够很好地支持DataFrame的操作。那么 Structured Streaming 的意义在哪里呢?第一,重新抽象了流式计算;第二,易于实现数据的exactly-once。2.0之前的Spark Streaming只能做到at-least once,框架层次很难帮你做到exactly-once。 现在通过重新设计流式计算框架,使得实现exactly-once 变得容易了。

继续阅读

数据可视化中级教程

数据可视化作为大数据分析的最后一环,直接影响着我们对大数据的分析和使用。相比于枯燥无味的文字描述,数据可视化将大数据集中的数据以图形图像的形式表示,并利用数据分析和开发工具发现数据之间的关系,挖掘数据中潜在的价值。而数据中蕴含的价值,对于企业领导决策具有重要的参考价值。

继续阅读

可视化工具Tableau简易教程

在目前的互联网界,大数据是非常火的一块领域,并且已经渗入到生活的方方面面。然而面对庞大的数据,如果只是用表格或者文本来显示数据,那么数据将不易阅读,而且很难看出数据间的关系。Tableau是一款数据可视化工具,托放式的操作,精美的图表,让这款软件在大数据可视化方面大放光彩。本教程是Tableau简易教程,向大家介绍Tableau以及指导大家简易操作Tableau。

继续阅读

Redis安装与运行

本篇博客将介绍在Window系统下如何安装和使用Redis,Ubuntu系统安装和使用Redis可以参考链接http://dblab.xmu.edu.cn/blog/1513/#more-1513

Redis简介

  Redis是一个key-value存储系统,即键值对非关系型数据库,和Memcached类似,目前正在被越来越多的互联网公司采用。本教程只是简易的教程,指导大家如何安装运行Redis以及简单地操作Redis。如果要深入学习Redis,可以参考文章末尾的链接。

  Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类keyvalue存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。

继续阅读

Hadoop 2.4.1单机版 自定义实现类以及编译运行

概述

博主最近在学hadoop,而且在本实验室一位大神的指导下,我已配置好hadoop2.4.1开发环境,还没有配置或者不会配置的,请看链接hadoop单机版配置。由于之前运行的都是hadoop自带的实例,但是对于个人学习而言,肯定是要自己编写实现类以及编译运行实现类,因此博主就撰写了这篇文章,希望对学习hadoop的同道中人有所帮助。

继续阅读