第25期大数据师资培训班报名主页(数据采集与预处理专题班,暑假,泉州,2024年8月4日-9日)

第25期全国高校大数据课程教师培训交流班

(数据采集与预处理专题班)

报名主页

下载培训通知(内含报名表)

其他相关培训班推荐:第24期大数据师资培训班报名主页(Hadoop+Spark综合班,暑假,厦门,2024年7月21日-28日)

报名请联系:夏老师  手机和微信是18695661071   E-mail:  xiaoyunxia@xmu.edu.cn

培训交流时间:2024年8月4日-9日(8月4日全天注册报到,5日-9日上课)

培训地点:泉州

厦门大学 林子雨 主讲

小班制,低收费,高品

数据采集与预处理技术一站式培训

帮助高校教师形成数据采集与预处理课程的授课能力

讲师简介 |  培训日程安排 | 收费标准 | 报名方式 | 住宿餐饮

第1期班级主页|第2期班级主页|第3期班级主页|第4期班级主页

第5期班级主页 | 第6期班级主页 | 第7期班级主页

第8期班级主页第9期班级主页 | 第10期班级主页

扫一扫访问本网页

培训讲师简介

厦门大学,计算机科学系,数据库实验室,林子雨

厦门大学计算机科学系 林子雨 博士/副教授

林子雨,男,1978年出生,博士(毕业于北京大学),国内高校知名大数据教师,厦门大学计算机科学与技术系副教授,厦门大学数据库实验室负责人,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,全国工业大数据行业产教融合共同体特聘专家,入选“2021年高校计算机专业优秀教师奖励计划”,荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”和“2018年福建省高等教育教学成果奖二等奖(个人排名第一)”,编著出版15本大数据系列教材,被国内1000多所高校采用,建设了国内高校首个大数据课程公共服务平台,平台累计网络访问量超过2500万次,成为全国高校大数据教学知名品牌,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”和“2020年国家级线上一流本科课程”,主持的课程《Spark编程基础》获评“2021年国家级线上一流本科课程”。建设的大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。

推荐阅读:林子雨老师教学创新成果报告:服务全国高校的大数据教学创新实践

收费标准

本培训班收费说明:培训交流班主要目的在于向全国高校推广大数据教学,与各位高校教师一起努力,共同促进中国高校大数据教学事业的不断发展进步。本培训班采用小班制,培训班的培训费用会低于商业机构举办的小班制培训班。本培训班收取的培训费,主要用于场地费、设备使用费、专车费、聘请讲师等费用。

本培训班收费标准培训费4280元(含报名费、培训费、教材资料费、场地费、设备费等,本培训班收费低于市场价格),交通费、住宿费、餐饮费自理,统一安排住宿和餐饮(费用自理)。

培训特色

(1)零基础学习。参加本次培训班的老师不需要具备任何大数据技术基础,培训期间会系统讲解数据采集与预处理的各种技术。课程采用Python语言(可以没有Python编程的基础),学习门槛低。

(2)提供高质量教材。采用厦门大学计算机系林子雨老师编著《数据采集与预处理》作为培训教材,教材已经被国内200余所高校采用;

(3)优秀教师授课。由教材作者、全国高校知名大数据教师、2门“国家线上一流本科课程”负责人、教育部高等学校计算机类教指委2021年高校计算机专业优秀教师奖励计划入选者、福建省教学成果特等奖获得者——林子雨老师亲自主讲,林子雨老师已经为国内500多所高校培养了800余位大数据教师,并编著出版了13本大数据教材,被国内1000余所高校采用;

(4)理论讲解与大量实践内容相结合。其中实践部分采用Linux操作系统和Python编程语言;

(5)提供在线实验云平台。培训全程无需老师自行搭建实验环境,提供与课程配套的在线实验云平台,助力老师高效完成实操。

(6)全程助教实时答疑。有多位老师和助教给与现场指导答疑;

(7)提供课程全部配套教学资源。本次培训将会提供与林子雨老师教材配套的丰富教学资源(讲义PPT、教学大纲、课程思政、MOOC视频、实验指南、技术博客等),助力老师回校后顺利开课。

培训目标

本次“数据采集与预处理”课程培训班旨在提升高校教师在数据科学领域的专业素养,特别是在数据采集与预处理方面的教学能力。通过系统的理论学习与实践操作,使教师能够掌握数据采集与预处理的核心知识与技能,并将其有效融入课程教学中,以提高学生的数据科学实践能力。

课程采用Linux操作系统和Python编程语言,具体培训目标如下:

(1)深入了解数据采集与预处理的理论基础,掌握常用的数据采集方法与工具。

(2)熟练掌握大数据实验环境搭建方法,包括Linux、Python、JDK、MySQL、Hadoop、MongoDB、Redis的安装和使用方法。

(3)熟练掌握Python语言的基本使用方法。

(4)掌握网络数据采集方法,包括网络爬虫的概念、网页爬取与解析方法、Scrapy框架等。

(5)掌握分布式消息系统Kafka的原理、安装和使用方法,包括使用Python操作Kafka的方法、Kafka和MySQL的组合使用方法以及使用Kafka采集数据保存到MongoDB中的方法等。

(6)掌握日志采集系统Flume的原理、安装和使用方法,包括Flume和Kafka的组合使用方法、采集日志文件到HDFS的方法、采集MySQL数据到HDFS的方法等。

(7)掌握ETL工具Kettle的安装和使用方法,包括使用Kettle转化MySQL数据库中的数据、把Excel文件导入MySQL数据库、把文本文件导入MySQL数据库、把本地文件加载到HDFS中以及把HDFS文件加载到MySQL数据库中。

(8)了解数据清洗技术,能够处理缺失值、异常值、重复值等问题,掌握如何使用pandas进行数据清洗,包括NumPy的基本使用方法、pandas的数据结构、pandas导入导出文件、pandas的基本功能、汇总和描述统计、处理缺失数据、清洗格式内容。

(9)全面实战5个数据清洗综合实例,包括实例1:对食品数据集进行基本操作、实例2:对电影数据集进行清洗、实例3:百度搜索指数分析、实例4:B站数据分析、实例5:电影评分数据分析。

(10)将系统介绍数据采集与预处理这门课程的知识体系、授课方法、实验案例、高校大数据课程公共服务平台资源使用指南等方面的内容,旨在帮助参加培训的教师快速建立对数据采集与预处理课程体系的整体性认识,为高效备课和顺利开课打下坚实基础。

培训日程安排

时间

培训内容

培训讲师

第1天

模块一:大数据概述

  • 数据
  • 数据分析过程
  • 数据采集与预处理的任务
  • 数据采集
  • 数据清洗
  • 数据集成
  • 数据转换
  • 数据归约
  • 数据脱敏

模块二:大数据实验环境搭建

  • Linux系统的安装和使用(实战)
  • Python的安装和使用(实战)
  • JDK的安装(实战)
  • Hadoop的安装和使用(实战)
  • MySQL数据库的安装和使用(实战)
  • MonoDB的安装和使用(实战)
  • Redis的安装和使用(实战)
  • 多位老师和助教现场指导答疑
厦门大学林子雨
第2天

模块三:网络数据采集

  • 网络爬虫概述
  • 网页基础知识
  • 用Python实现HTTP请求
  • 定制requests
  • 解析网页(BeautifulSoup简介、遍历文档树、搜索文档树、CSS选择器)
  • 实战:综合实例(实例1:采集网页数据保存到文本文件、实例2:采集网页数据保存到MySQL数据库、实例3:采集网页数据保存到MongoDB数据库、实例4:采集网页数据保存到Redis数据库)
  • 多位老师和助教现场指导答疑

模块四:Scrapy爬虫

  • Scrapy框架概述
  • XPath语言
  • 实战:Scrapy框架应用实例
  • 实战:通过JSON接口爬取网站数据
  • 多位老师和助教现场指导答疑
厦门大学林子雨
第3天

模块五:分布式消息系统Kafka

  • Kafka简介
  • Kafka在大数据生态系统中的作用
  • Kafka与Flume的区别与联系
  • Kafka相关概念
  • Kafka的安装和使用
  • 实战:使用Python操作Kafka
  • 实战:Kafka与MySQL的组合使用
  • 实战:Kafka采集数据保存到MongoDB中
  • 多位老师和助教现场指导答疑

模块六:日志采集系统Flume

  • Flume简介
  • Flume的安装和使用
  • 实战:Flume和Kafka的组合使用(Flume采集NetCat数据到Kafka、Flume采集文件数据到Kafka、Flume采集MySQL数据到Kafka)
  • 实战:采集日志文件到HDFS(采集目录到HDFS、采集文件到HDFS)
  • 实战:采集MySQL数据到HDFS
  • 实战:Flume多数据源应用实例
  • 多位老师和助教现场指导答疑
厦门大学林子雨
第4天

模块七:ETL工具Kettle

  • Kettle的基本概念
  • Kettle的基本功能
  • 安装Kettle
  • 实战:数据抽取(把文本文件导入Excel文件、把文本文件导入MySQL数据库、把Excel文件导入MySQL数据库)
  • 多位老师和助教现场指导答疑

模块八:ETL工具Kettle实战案例

  • 实战:数据清洗与转换(使用Kettle实现数据排序、在Kettle中用正则表达式清洗数据、使用Kettle去除缺失值、使用Kettle转化MySQL数据库中的数据)
  • 实战:数据加载(把本地文件加载到HDFS中、把HDFS文件加载到MySQL数据库中)
  • 多位老师和助教现场指导答疑

厦门大学

林子雨

第5天

模块九:使用pandas进行数据清洗

  • NumPy的基本使用方法
  • pandas的数据结构(Series、DataFrame和索引对象)
  • 实战:pandas导入导出文件(Excel文件、CSV文件、TXT文件)
  • 实战:pandas的基本功能(重新索引、丢弃指定轴上的项、索引、选取和过滤、算术运算、DataFrame和Series之间的运算、函数应用和映射、排序和排名、分组、常用函数)
  • 实战:汇总和描述统计
  • 实战:处理缺失数据(检查缺失值、清理/填充缺失值、排除缺少的值)
  • 实战:清洗格式内容(删除字符串中的空格、大小写转换)
  • 多位老师和助教现场指导答疑

模块十:使用pandas进行数据清洗综合实例(实战)

  • 实例1:对食品数据集进行基本操作
  • 实例2:对电影数据集进行清洗
  • 实例3:百度搜索指数分析
  • 实例4:B站数据分析
  • 实例5:电影评分数据分析
  • 多位老师和助教现场指导答疑

厦门大学

林子雨

备注:

  • 参加培训的学员,可以获得1个U盘(含全套大数据教学资源)和1本纸质培训案例教材。
  • 学员须自带笔记本电脑,培训时,学员笔记本电脑通过网络连接到大数据实验平台。

报名方式

下载培训通知(内含报名表),填写报名表后发送到夏老师邮箱:xiaoyunxia@xmu.edu.cn

联系人:夏老师  18695661071

E-mail:xiaoyunxia@xmu.edu.cn

培训班为学员统一安排住宿和餐饮,费用自理

 

住宿餐饮

培训班为学员统一安排住宿酒店和餐饮(学员不需要自己找酒店),费用自理。