大数据

林子雨编著《大数据基础编程、实验和案例教程（第2版）》教材第3章的代码

林子雨编著《大数据基础编程、实验和案例教程（第2版）》(教材官网)教材中的命令行和代码，在纸质教材中的印刷效果不是很好，可能会影响读者对命令行和代码的理解，为了方便读者正确理解命令行和代码或者直接拷贝命令行和代码用于上机实验，这里提供全书配套的所有命令行和代码。
查看教材所有章节的代码
 继续阅读

林子雨编著《大数据基础编程、实验和案例教程（第2版）》教材第2章的代码

教材代码-林子雨编著《大数据基础编程、实验和案例教程（第2版）》教材所有章节代码

林子雨编著《大数据基础编程、实验和案例教程（第2版）》(教材官网)教材中的命令行和代码，在纸质教材中的印刷效果不是很好，可能会影响读者对命令行和代码的理解，为了方便读者正确理解代码或者直接拷贝代码用于上机实验，这里提供全书配套的所有命令行和代码。
继续阅读

Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本文作者：厦门大学计算机系数据库实验室林子雨副教授 E-mail: ziyulin@xmu.edu.cn
本教程讲述如何配置 Hadoop 集群（采用Hadoop3.1.3），默认读者已经掌握了 Hadoop的单机伪分布式配置，否则，请先查看Hadoop安装教程_单机/伪分布式配置教程。
继续阅读

在Windows中使用VirtualBox安装Ubuntu虚拟机（2020年7月版本）

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本教程将指引读者在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu。本教程是林子雨编著《大数据技术原理与应用》教材的配套教学资源。

继续阅读

第15期大数据师资培训班报名主页（线上培训，Hadoop+Spark综合班，暑假，2020年7月25日-30日）

欢迎报名参加林子雨老师主讲
第15期大数据师资培训班报名主页（线上培训，Hadoop+Spark综合班，暑假，2020年7月25日-30日）
点击这里访问报名主页

借助于Arrow实现PySpark和Pandas之间的数据交换

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
Apache Arrow是一个高效的列式数据格式，可以在PySpark中实现JVM和Python进程之间的数据交换。这对于使用Numpy和Pandas的Python用户来说，是可以带来很多好处的。不过，它的使用并不是自动发生的，而是需要经过一些安装和配置工作。
继续阅读

基于Spark的音乐专辑数据分析展示

本实验采用Python语言，使用大数据处理框架Spark对音乐专辑数据进行处理分析，并对分析结果进行可视化。
继续阅读

基于Spark的气象数据处理与分析

本实验采用Python语言，从网页爬取气象数据，并使用大数据处理框架Spark对气象数据进行处理分析，并对分析结果进行可视化。
继续阅读

关于数据仓库Hive建表时的LOCATION参数问题

关于数据仓库Hive建表时的LOCATION参数问题
在构建数据仓库Hive的表时，需要用到LOCATION参数，关于这个参数的用法，这里简单探讨一下。
继续阅读