高校大数据实训课程系列案例之电信用户行为分析

《高校大数据实训课程系列案例之电信用户行为分析》教材官网

厦门大学 林子雨  编著

(E-mail: ziyulin@xmu.edu.cn)

全国高校大数据教学名师精品力作

系列案例,与相关大数据教材一脉相承

资源全面,提供全方位一站式在线服务

教材已经由人民邮电出版社出版发行

ISBN:978-7-115-50123-3  定价:45元


 本页面内容导航

 教材简介 | 案例概述下载专区 | 拓展阅读  | 大数据学习路线图 | 大数据课程公共服务平台其他案例系列教材


扫一扫访问本网页

教材简介

图书ISBN:978-7-115-50123-3  人民邮电出版社

本书详细介绍了一个大数据应用案例——电信用户行为分析,案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。

本书适合用于高校大数据实训课程的教学,本书中的具体案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

本书提供了丰富的免费在线教学资源,可以较好地满足高校在大数据实训课程环节对相关大数据教学资源的需求。

本书作为大数据实训课程教材,和大数据入门教材《大数据技术原理与应用》以及大数据进阶教材《Spark编程基础》一起,初步形成了完整的大数据教材体系,可以作为高等院校计算机、软件工程、信息管理、数据科学与大数据技术等相关专业的大数据实训课程教材,也可供相关技术人员参考。

案例概述

本案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。本案例适合用于高校大数据实训课程的教学。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。

1.1 案例目的

本案例旨在帮助学生形成以下几个方面的能力:

(1)熟悉Linux操作系统安装和使用;
(2)熟悉Hadoop的安装和使用方法;
(3)掌握HDFS基本原理和常用Shell命令使用方法;
(4)掌握关系数据库的原理、MySQL数据库的安装和使用方法;
(5)掌握IntelliJ IDEA编写Scala程序的方法;
(6)掌握编写Spark程序的方法;
(7)掌握使用Spring框架进行网页开发的方法;
(8)掌握通过网页进行数据可视化的方法。

1.2 适用对象

本案例适用于以下对象:
(1)高校(本科和高职)教师;
(2)高校(本科和高职)学生;
(3)大数据学习者。

1.3 时间安排

本案例可以作为高校大数据实训课程的实践教学案例,建议安排80学时左右完成本案例。

1.4 预备知识

本案例是对大数据课程知识体系的综合实践,需要案例使用者具备如下预备知识:
(1)必须学习过大数据相关课程,了解大数据相关技术的基本概念与原理,掌握基础的Hadoop使用方法和Spark编程方法;
(2)由于本案例全部在Linux操作系统下完成实验,因此,需要使用者了解Linux操作系统的基本原理和使用方法;
(3)了解关系数据库的原理,掌握基本的SQL语句编写方法;
(4)了解Scala编程语言以及使用Scala语言编写Spark程序的方法;
(5)了解Java语言以及Java程序开发方法;
(6)了解HTML语言和网页开发的基本方法。

1.5 硬件要求

本案例可以在单机、伪分布式、分布式集群环境下完成实验。对于Hadoop而言,三种模式的区别在于:
(1)单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
(2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
(3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。

需要说明的是,高校采用真正分布式集群环境进行实验的必要性不强,很多高校也不具备多人同时开展分布式编程实践的大数据实验平台,因此,建议在伪分布式环境下完成本案例。

在使用伪分布式模式进行安装配置时,如果采用在Windows系统上安装Linux虚拟机的方式,则对计算机的配置要求较高,建议的计算机硬件配置为:50GB以上硬盘和8GB以上内存。如果采用双操作系统方式,开机启动后直接进入Linux系统,则使用普通的台式机或者笔记本电脑,都可以顺利完成本案例。

由于在程序编译打包环节需要从网络上下载相关文件,因此,要确保计算机能够接入互联网。

1.6 软件工具

本案例所涉及的系统及软件包括:Linux、MySQL、Hadoop、HDFS、Spark、IntelliJ IDEA等,并且采用Scala语言编写Spark程序,采用Java语言编写网页程序。相关软件的版本建议如下:
(1)Linux:Ubuntu 16.04
(2)MySQL:5.7
(3)Hadoop:2.7.1
(4)IntelliJ IDEA:2017.3.5
(5)Spark:2.1.0
(6)Spring:4.3.5
(7)Tomcat:8.5.27

教材官网提供了全部软件的下载,要严格按照相应版本安装系统和软件。

1.7 数据集

本案例采用电信用户数据集,教材官网“下载专区”的“数据集”目录中提供了数据集的下载。

1.8 案例任务

本案例需要在Linux系统环境下完成以下任务:
(1)安装JDK;
(2)安装关系型数据库MySQL;
(3)安装大数据软件Hadoop;
(4)安装大数据软件Spark;
(5)安装开发工具IntelliJ IDEA;
(6)在MySQL数据库中创建数据库、表和视图;
(7)使用IDEA工具开发Spark程序进行数据分析;
(8)使用IDEA工具编写Web程序;
(9)使用SpringMVC框架开发网页应用实现可视化分析。

图1-1给出了本案例的数据分析整体过程,具体如下:
(1)把电信用户行为数据集加载到HDFS中;
(2)使用Scala语言编写Spark程序对HDFS中的数据进行用户行为分析,并把结果写入到MySQL数据库;
(3)使用Spring MVC框架开发网页应用,对MySQL数据库中的数据进行可视化分析;
(4)在网页中以图表形式对分析结果进行可视化呈现。

下载专区

“下载专区”栏目提供了本教材内各个章节所涉及到的源代码、软件和数据集的下载,为了方便读者查找相关软件和代码,表1给出了“下载专区”目录及其内容的概览。

“下载专区”所有资源全部放在百度云盘中(请点击这里访问)(提取码:hvk2),需要在电脑上安装百度云盘客户端,才能顺利下载内容。

表1 “下载专区”目录及其内容概览

目录 文件清单
软件 apache-tomcat-8.5.27.tar.gz
hadoop-2.7.1.tar.gz
ideaIU-2017.3.5.tar.gz
jdk-8u162-linux-x64.tar.gz
mysql-connector-java-5.1.40.tar.gz
scala-intellij-bin-2017.3.5.zip
spark-2.1.0-bin-without-hadoop.tgz
ubuntukylin-16.04-desktop-amd64.iso
VirtualBox_5.0.10.4061_104061_Win.1448355141.exe
代码 第2章 core-site.xml, hdfs-site.xml
第3章 pom.xml, WordCount.scala
第4章 WebDemo.rar
第5章 example-template.html, example-code2.txt, example2.html, toolbox.html, example-code1.txt, example1.html, echarts.js
第6章 SpringMVC.zip, Spark_Web.zip
数据集 demo.txt, data

拓展阅读

教材章节 阅读内容 阅读目的 阅读
第2章 大数据实验环境搭建 Linux系统安装指南 了解如何在Windows系统中采用虚拟机方式安装Linux 查看
第2章 大数据实验环境搭建 Hadoop集群安装配置教程 了解如何利用多台机器、采用分布式模式构建Hadoop集群 查看
第2章 大数据实验环境搭建 Spark集群搭建及程序运行 了解如何搭建Spark集群以及如何在Spark集群上运行分布式程序 查看

大数据学习路线图

从2013年至今,历经5年,厦门大学林子雨老师团队建设了目前国内高校最丰富的大数据教学资源,为高校教学提供了包括教材、讲义PPT、视频、实验、案例等在内的全方位、一站式服务,成为目前国内高校大数据教学领域具有较高影响力的团队,教材已经被国内众多高校采用,在线资源每年访问量超过200万次。“大数据学习路线图”(访问)将为大数据学习者提供轻松、高效的学习路径,帮助学习者利用厦大数据库实验室提供的全套教学资源,顺利地、一站式完成大数据的入门学习和进阶学习。

大数据课程公共服务平台

由厦门大学数据库实验室建设的高校大数据课程公共服务平台(访问),旨在为全国高校教师和学生提供大数据教学资源一站式“免费”在线服务,包括课程教材、讲义PPT、课程习题、实验指南、学习指南、备课指南、授课视频和技术资料等。平台重点打造“11个1工程”,即1套教材、1个教师服务站、1个学生服务站、1个公益项目、1堂巡讲公开课、1个示范班级、1门在线课程、1个交流群(QQ群、微信群)、1个保障团队、1个培训交流基地和1个教学研讨会。平台自2013年5月建设以来,内容不断补充完善,形成了丰富的在线大数据教学资源,吸引了大量用户访问,目前每年访问量超过100万次,成为全国高校大数据教学知名品牌。

致谢

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。衷心感谢夏小云老师在教材校对工作中的辛勤付出!