Flink编程基础(Java版)教材官网
厦门大学 林子雨 编著
E-mail:ziyulin@xmu.edu.cn
披荆斩棘,在大数据丛林中开辟学习捷径
填沟削坎,为快速学习Flink技术铺平道路
深入浅出,有效降低Flink技术学习门槛
资源全面,构建全方位一站式在线服务体系
本书已经于2024年8月上市销售
人民邮电出版社出版发行 定价:69.80元
ISBN: 978-7-115-64149-6 2024年7月第1版
扫一扫访问教材官网
样书申请
如果您是高校教师,可以扫描下面二维码申请样书:
扫码申请样书
下载专区
下载专区提供了与教材配套的各种资料的下载,包括讲义PPT(最新版本)、教学大纲、软件、数据集、代码、上机实验等。可以直接访问百度网盘地址:https://pan.baidu.com/s/1bR-JNNKk9_10U_VuqHIM_A?pwd=ziyu
提取码:ziyu
教材中的代码
查看教材中的所有命令行和代码,可以直接复制粘贴运行。
教材简介
本书以Java作为开发Flink应用程序的编程语言,系统介绍了Flink编程的基础知识。全书共6章,内容包括大数据技术概述、Flink的设计与运行原理、 大数据实验环境搭建、Flink环境搭建和使用方法、DataStream API、Table API&SQL等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Flink编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。
本书可以作为高等院校大数据、计算机、软件工程等专业的进阶级大数据课程教材,用于指导Flink编程实践,也可供相关技术人员参考。
教材目录
第1章 大数据技术概述
第2章 Flink的设计与运行原理
第3章 大数据实验环境搭建
第4章 Flink环境搭建和使用方法
第5章 DataStream API
第6章 Table API&SQL
作者简介
林子雨(1978-),男,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,全国工业大数据行业产教融合共同体特聘专家,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版13本大数据系列教材,被国内500多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2500万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。建设的大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。
综合案例
1.案例1:基于Flink的厦门二手房数据的处理与分析(查看)
本案例使用Java语言编写Flink程序。使用Python语言编写网络爬虫程序,从链家网站爬取厦门二手房数据,然后进行数据清洗,保存到分布式文件系统HDFS中,接下来使用Java语言编写Flink程序进行数据分析,最后,采用PyECharts和网页形式进行数据可视化。
2.案例2:基于 Flink 的Google App Store数据处理与分析(查看)
本案例使用Java语言编写Flink程序。使用Python语言进行数据清洗,保存到分布式文件系统HDFS中,接下来使用Java语言编写Flink程序进行数据分析,最后,利用python的matplotlib库完成可视化工作。
3.案例3:基于Flink的电子游戏数据处理与分析(查看)
本案例使用Java语言编写Flink程序。使用Python语言进行数据清洗,保存到分布式文件系统HDFS中,接下来使用Java语言编写Flink程序进行数据分析,使用Idea创建Maven项目,最后,利用python的matplotlib库完成可视化工作。
4.案例4:基于PyFlink的空气质量数据分析(查看)
基于Python和Flink工具,针对真实的气象站点所采集到的空气质量时序数据,计算全国多个城市的8小时移动平均空气质量信息(包括AQI空气质量指数、PM2.5、SO2等信息),更新空气质量榜单,并进行详细的数据可视化。操作环境为:Ubuntu18.04,Flink1.17.0,Hadoop 3.3.5,Python3.8.10,bash命令行,utf-8编码,Pandas1.3.5,Pycharm 2024.1。
5.案例5:基于Python和Flink的人体肥胖数据分析(查看)
本案例采用数据集obesity_level.csv来源于kaggle网站,该Kaggle数据集提供了关于个人的全面信息。使用pandas进行数据清洗,保存到分布式文件系统HDFS中,接下来使用Python语言编写Flink程序进行数据分析,最后,采用python+plotly+matplotlib进行可视化。
6.案例6:基于PyFlink的成人数据集分析(查看)
本案例采用一个常用的机器学习和数据挖掘领域的数据集——成人数据集。使用Python语言进行数据清洗,保存到分布式文件系统HDFS中,接下来使用PyFlink进行数据分析,最后,利用python的matplotlib库完成可视化工作。
7.案例7:基于PyFlink的钻石价格数据处理与分析(查看)
本案例采用阿里天池大赛提供的钻石价格数据集。使用pandas进行数据清洗,保存到分布式文件系统HDFS中,接下来使用PyFlink进行数据分析,最后,采用matplotlib和seaborn进行可视化。
8.案例8:基于PyFlink的二手车交易数据处理与分析(查看)
本案例采用阿里天池大赛提供的某交易平台的二手车交易记录数据集。使用pandas进行数据清洗,保存到分布式文件系统HDFS中,接下来使用PyFlink进行数据分析,最后,采用matplotlib进行可视化。
9.案例9:基于Python和Flink的酒店数据分析(查看)
本案例数据集来源于Kaggle 公开项目 Hotel booking demand。使用pandas进行数据清洗,保存到分布式文件系统HDFS中,接下来使用Flink Python API 进行数据分析,主要使用其中的 Table API,最后,采用matplotlib进行可视化。
10.案例10:基于Python和Flink的Spotify歌曲数据分析(查看)
本案例用Python语言编写了Flink程序,对Spodify数据集进行了数据处理和分析,之后对分析结果使用Pyecharts进行了可视化,并分别保存为HTML和PNG格式。
11.案例11:基于Python和Flink的全球疫苗接种数据分析(查看)
本案例使用了Kaggle上的全球疫苗接种数据集,在Ubuntu虚拟机上使用Flink框架完成数据处理,使用Python语言实现,最后使用Python plotly包完成数据可视化。