基于Scala语言的Spark数据处理分析案例集锦
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版,第2版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析
Linux系统中卸载和重装MySQL数据库
有时候MySQL经常会出现一些稀奇古怪的问题,很多情况为了节省时间都是选择重装,附上重装过程。
1.完全卸载
···bash
sudo rm /var/lib/mysql/ -R
sudo rm /etc/mysql/ -R
sudo apt-get autoremove mysql* --purge
sudo apt-get remove apparmor
···
2.安装
sudo apt-get update
sudo apt-get install mysql-server
MySQL:ERROR 1698 (28000): Access denied for user ‘root’@’localhost’
问题描述
出现场景:这个问题一般出现在刚刚安装完MySQL的时候
出现原因:由于使用命令sudo apt-get install mysql安装时,并没有提示输入密码,则密码没有初始化,使用root用户登录自然失败.
具体情况:
mysql -uroot -p
Enter password:
ERROR 1698 (28000): Access denied for user 'root'@'localhost'
下面是解决问题的方法。
继续阅读
Win10如何获得管理员权限
使用Windows10操作系统的时候,由于普通用户的权限受到一些限制,无法完成一些操作,有时候需要启用管理员用户登录系统。这里介绍如何在Win10系统中启用管理员用户。
继续阅读
在Windows10操作系统中安装MySQL8.0.30数据库
本教程是为林子雨编著《数据采集与预处理》(教材官网)第2.3节MySQL数据库的安装与使用编写的配套教程。之所以撰写本教程,是因为,《数据采集与预处理》教材中提供的MySQL数据库安装方法,在Windows7操作系统中可以顺利执行,但是,在Windows10操作系统中,会遇到安装失败的情况。因此,编写了本教程,可以帮助教材使用者顺利完成在Windows10操作系统中安装MySQL8.0.30数据库。
Kafka和Structured Streaming的组合使用(Spark 3.2.0)
本文节选自林子雨编著《Spark编程基础(Scala版)》(教材官网:http://dblab.xmu.edu.cn/post/spark/)
作者:厦门大学计算机科学与技术系 林子雨 博士/副教授
E-mail: ziyulin@xmu.edu.cn
Structured Streaming是用来进行流计算的组件,可以把Kafka(或Flume)作为数据源,让Kafka(或Flume)产生数据发送给Structured Streaming应用程序,Structured Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。这里仅以Kafka为例进行介绍。这里使用的软件版本是:kafka_2.12-2.6.0,Spark3.2.0(Scala版本是2.12.15)。
继续阅读
Kafka和Spark Streaming的组合使用(Spark 3.2.0)
本文节选自林子雨编著《Spark编程基础(Scala版)》(教材官网:http://dblab.xmu.edu.cn/post/spark/)
作者:厦门大学计算机科学与技术系 林子雨 博士/副教授
E-mail: ziyulin@xmu.edu.cn
Spark Streaming是用来进行流计算的组件,可以把Kafka(或Flume)作为数据源,让Kafka(或Flume)产生数据发送给Spark Streaming应用程序,Spark Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。这里仅以Kafka为例进行介绍。这里使用的软件版本是:kafka_2.12-2.6.0,Spark3.2.0(Scala版本是2.12.15)。
继续阅读
Flink的设计与运行原理
本网页内容节选自林子雨编著《Flink编程基础(Scala版)》(教材官网),版权所有,侵权必究
第3章 Flink的设计与运行原理
近年来,流处理这种应用场景在企业中变得越来越频繁,由此带动了企业数据架构开始由传统数据处理架构、大数据Lambda架构向流处理架构演变。Flink就是一种具有代表性的开源流处理架构,具有十分强大的功能,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。Flink的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及“精确一次”的状态一致性保障等。Flink不仅可以运行在包括 YARN、Mesos、Kubernetes等在内的多种资源管理框架上,还支持在裸机集群上独立部署。Flink目前已经在全球范围内得到了广泛的应用,大量企业已经开始大规模使用Flink作为企业的分布式大数据处理引擎。
本章首先给出Flink简介,并探讨为什么选择Flink以及Flink的典型应用场景;然后介绍Flink的统一数据处理、技术栈、工作原理、编程模型和应用程序结构;最后介绍Flink中的数据一致性。(节选自林子雨编著《Flink编程基础(Scala版)》)
继续阅读
第18期大数据师资培训班报名主页(线下培训,Hadoop+Spark综合班,厦门,寒假,2022年1月16日-23日)
第18期大数据师资培训班报名主页(线下培训,Hadoop+Spark综合班,厦门,寒假,2022年01月16日-01月23日,林子雨老师主讲)
点击这访问报名主页