厦大数据库实验室博客 | 总结、分享、收获

安装最新版sbt工具方法和体会

使用Scala语言编写的Spark程序，需要使用sbt进行编译打包。Spark中没有自带sbt，需要单独安装。可以到“http://www.scala-sbt.org”下载sbt安装文件sbt-1.3.8.tgz。
当前（2020年2月26日）笔者在写这篇文章的时候，sbt最新版是1.3.8版本。
继续阅读

-【版权声明：本指南为厦门大学林子雨编著的《大数据技术原理与应用（第3版）》教材配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Flink是Apache软件基金会的一个顶级项目，是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架，并且可以同时支持实时计算和批量计算。Flink起源于Stratosphere 项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的。2014年4月，Stratosphere代码被贡献给Apache软件基金会，成为Apache软件基金会孵化器项目。之后，团队的大部分创始成员离开大学，共同创办了一家名为Data Artisans的公司。在项目孵化期间，为了避免与另外一个项目发生重名，Stratosphere被重新命名为Flink。在德语中，Flink是“快速和灵巧”的意思，使用这个词作为项目名称，可以彰显流计算框架的速度快和灵活性强的特点。
本教程首先介绍Flink的安装，然后以WordCount程序为实例来介绍Flink编程方法。
继续阅读

Spark安装和编程实践（Spark2.4.0）

-【版权声明：本指南为厦门大学林子雨编著的《大数据技术原理与应用（第3版）》教材配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本指南将介绍 Spark 的安装与基本使用。
继续阅读

MapReduce编程实践(Hadoop3.1.3)

-【版权声明：本指南为厦门大学林子雨编著的《大数据技术原理与应用（第3版）》教材配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
MapReduce是谷歌公司的核心计算模型，Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数：Map和Reduce，并极大地方便了分布式编程工作，编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据的计算。
本教程以一个词频统计任务为主线，详细介绍MapReduce基础编程方法。环境是Ubuntu18.04（或Ubuntu16.04或Ubuntu14.04）、Hadoop3.1.3，开发工具是Eclipse。

继续阅读

HDFS编程实践（Hadoop3.1.3）

【版权声明：本指南为厦门大学林子雨编著的《大数据技术原理与应用（第3版）》教材配套学习资料，版权所有，转载请注明出处，请勿用于商业用途】

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频

【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本指南介绍Hadoop分布式文件系统HDFS，并详细指引读者对HDFS文件系统的操作实践。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用（第3版）》第3章节，再结合本指南进行学习。

继续阅读

HBase2.2.2安装和编程实践指南

继续阅读

Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
当开始着手实践 Hadoop 时，安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单，书上有写到，官方网站也有 Hadoop 安装配置教程，但由于对 Linux 环境不熟悉，书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑，导致新手折腾老几天愣是没装好，很是打击学习热情。

本教程由厦门大学数据库实验室 / 林子雨出品，转载请注明。本教程适合于原生 Hadoop3.1.3，主要参考了官方安装教程，步骤详细，辅以适当说明，相信按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外，希望读者们能多去了解一些 Linux 的知识，以后出现问题时才能自行解决。

为了方便学习本教程，请读者们利用Linux系统中自带的firefox浏览器打开本指南进行学习。
Hadoop安装文件，可以到Hadoop官网下载hadoop-3.1.3.tar.gz。
也可以直接点击这里从百度云盘下载软件（提取码：ziyu），进入百度网盘后，进入“软件”目录，找到hadoop-3.1.3.tar.gz文件下载到本地。

继续阅读

Hive3.1.2安装指南

【相关文章推荐】《大数据软件安装和基础编程实践指南》，详细指导VirtualBox、Ubuntu、Hadoop、HDFS、HBase、Hive、MapReduce、Spark、Flink的安装和基础编程
本指南介绍了Hive，并详细指引读者安装Hive。前面第几章学习指南已经指导大家安装Linux操作系统，并安装配置了Hadoop，但是这只表明我们已经安装好了Hadoop分布式文件系统，而Hive需要另外下载安装，本指南就是详细指导大家安装并配置Hive，完成后大家可以结合厦门大学林子雨编著的《大数据技术原理与应用（第3版）》第9章数据仓库Hive进行深入学习。
继续阅读

安装Hive3.1.2遇到错误解决方案

在安装Hive3.1.2时，采用的Hadoop版本是3.1.3，使用MySQL存储元数据。安装过程请参考《Hive安装指南》。安装过程可能遇到两个主要错误。
【错误1】
java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument
【原因】
com.google.common.base.Preconditions.checkArgument 这是因为hive内依赖的guava.jar和hadoop内的版本不一致造成的。
【解决方法】
1.查看hadoop安装目录下share/hadoop/common/lib内guava.jar版本
2.查看hive安装目录下lib内guava.jar的版本如果两者不一致，删除版本低的，并拷贝高版本的问题解决！

【错误2】org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table missing : "VERSION" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations.

【解决方案】
进入hive安装目录（比如/usr/local/hive），执行如下命令：./bin/schematool -dbType mysql -initSchema

林子雨编著《Spark编程基础(Python版)》教材第8章的命令行和代码

林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》(教材官网)教材中的代码，在纸质教材中的印刷效果，可能会影响读者对代码的理解，为了方便读者正确理解代码或者直接拷贝代码用于上机实验，这里提供全书配套的所有代码。
查看所有章节代码
 继续阅读