林子雨编著《大数据基础编程、实验和案例教程(第2版)》(教材官网)教材中的命令行和代码,在纸质教材中的印刷效果不是很好,可能会影响读者对命令行和代码的理解,为了方便读者正确理解命令行和代码或者直接拷贝命令行和代码用于上机实验,这里提供全书配套的所有命令行和代码。
查看教材所有章节的代码
继续阅读
林子雨编著《大数据基础编程、实验和案例教程(第2版)》教材第3章的代码
林子雨编著《大数据基础编程、实验和案例教程(第2版)》(教材官网)教材中的命令行和代码,在纸质教材中的印刷效果不是很好,可能会影响读者对命令行和代码的理解,为了方便读者正确理解命令行和代码或者直接拷贝命令行和代码用于上机实验,这里提供全书配套的所有命令行和代码。
查看教材所有章节的代码
继续阅读
林子雨编著《大数据基础编程、实验和案例教程(第2版)》教材第2章的代码
林子雨编著《大数据基础编程、实验和案例教程(第2版)》(教材官网)教材中的命令行和代码,在纸质教材中的印刷效果不是很好,可能会影响读者对命令行和代码的理解,为了方便读者正确理解命令行和代码或者直接拷贝命令行和代码用于上机实验,这里提供全书配套的所有命令行和代码。
查看教材所有章节的代码
继续阅读
教材代码-林子雨编著《大数据基础编程、实验和案例教程(第2版)》教材所有章节代码
林子雨编著《大数据基础编程、实验和案例教程(第2版)》(教材官网)教材中的命令行和代码,在纸质教材中的印刷效果不是很好,可能会影响读者对命令行和代码的理解,为了方便读者正确理解代码或者直接拷贝代码用于上机实验,这里提供全书配套的所有命令行和代码。
继续阅读
Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本文作者:厦门大学计算机系数据库实验室 林子雨 副教授 E-mail: ziyulin@xmu.edu.cn
本教程讲述如何配置 Hadoop 集群(采用Hadoop3.1.3),默认读者已经掌握了 Hadoop的单机伪分布式配置,否则,请先查看Hadoop安装教程_单机/伪分布式配置教程。
继续阅读
在Windows中使用VirtualBox安装Ubuntu虚拟机(2020年7月版本)
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
【相关文章推荐】《大数据软件安装和基础编程实践指南》,详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本教程将指引读者在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu。本教程是林子雨编著《大数据技术原理与应用》教材的配套教学资源。
将Maven源改为国内阿里云仓库
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
在使用Maven打包Scala程序时,默认是从位于国外的Maven中央仓库下载相关的依赖,造成我们从国内下载依赖时速度很慢。
可以通过修改Maven的配置文件,让Maven到国内的阿里云仓库下载相关依赖,大大提高打包的速度。
继续阅读
第15期大数据师资培训班报名主页(线上培训,Hadoop+Spark综合班,暑假,2020年7月25日-30日)
欢迎报名参加林子雨老师主讲
第15期大数据师资培训班报名主页(线上培训,Hadoop+Spark综合班,暑假,2020年7月25日-30日)
点击这里访问报名主页
借助于Arrow实现PySpark和Pandas之间的数据交换
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
Apache Arrow是一个高效的列式数据格式,可以在PySpark中实现JVM和Python进程之间的数据交换。这对于使用Numpy和Pandas的Python用户来说,是可以带来很多好处的。不过,它的使用并不是自动发生的,而是需要经过一些安装和配置工作。
继续阅读
基于Spark的音乐专辑数据分析展示
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学信息学院计算机科学系2018级研究生 沈琳
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
本实验采用Python语言,使用大数据处理框架Spark对音乐专辑数据进行处理分析,并对分析结果进行可视化。
继续阅读