Author: 林子雨老师

在ECS实例的Ubuntu系统中安装Hadoop

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在阿里云ECS的Ubuntu系统中安装Hadoop,和在本地电脑安装Hadoop,基本相似,但是,也有略微差别,必须正确配置,否则,会导致无法顺利启动。安装Hadoop之前,请确保已经根据前面的博客《在ECS实例的Ubuntu系统中安装Java》完成了Java的安装。
继续阅读

使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在大数据实验操作中,我们经常需要从本地电脑上传数据或者软件到阿里云ECS的Ubuntu系统中,或者需要从ECS的Ubuntu系统中下载数据到本地电脑。因此,需要了解如何使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件。
继续阅读

在ECS实例的Ubuntu系统中安装Java

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
无论是Hadoop,还是Spark,都需要Java运行环境,因此,需要在ECS实例的Ubuntu系统中安装Java。由于本教程使用Hadoop2.7.1和Spark2.1.0(要求必须Java8及以上版本),因此,需要安装Java8。如果你的ECS实例中的Ubuntu是Java7,那么版本太旧,必须删除,然后,安装Java8,。
继续阅读

使用Putty软件实现SSH登录到Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
假设我们在本地使用台式机或笔记本电脑,有时候,我们要在远程的云服务器ECS的Ubuntu中执行一些Shell命令来完成一些操作,如果采用阿里云网页管理控制台的方式,非常繁琐(要访问官网、登录账户、发起远程连接、进入Ubuntu系统、打开终端),因此,建议在本地电脑上,使用Putty软件实现SSH登录到远程ECS实例中的Ubuntu系统,这样做非常方便快捷。
继续阅读

为Ubuntu系统添加新的普通用户

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在使用Ubuntu系统的过程中,一般不建议直接使用root用户,建议新建一个或多个普通用户,平时的大数据实验操作都使用普通用户登录Ubuntu系统。
购买了阿里云的云服务器ECS实例以后,就可以打开浏览器,通过网页访问阿里云官网,通过网页中的管理控制台,使用root用户来登录ECS实例中的Ubuntu系统,然后,根据前面博客介绍的方法,在Ubuntu系统中打开一个命令行终端,在终端中输入Shell命令完成新用户的创建。
继续阅读

使用VNC远程连接ECS实例中的Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
通过网页中的管理控制台来登录ECS实例中的Ubuntu系统,对于开发者而言,使用体验不是很好。建议在本地电脑使用VNC远程连接ECS实例中的Ubuntu系统,可以带来更好的体验。
继续阅读

从网页的控制台登录云服务器ECS中的Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
购买了阿里云的云服务器ECS实例以后,就可以打开浏览器,通过网页访问阿里云官网,通过网页中的管理控制台,来登录ECS实例中的Ubuntu系统。
继续阅读

购买阿里云的云服务器ECS

返回《在阿里云中搭建大数据实验环境》首页

学习大数据时,学习者都是使用台式机或者笔记本电脑开始上机实验操作。但是,大数据软件非常多,普通台式机和笔记本电脑上安装了大量的大数据软件以后,运行速度会很慢。笔者也曾经花了1000元左右购买了16GB内存条和固态盘(比磁盘快),把笔记本电脑升级了一次,增加存储空间和内存空间。但是,当笔者安装了大量大数据软件以后,就发现,在进行上机操作时,速度会越来越慢,如果要跑一些综合案例(涉及到大量软件和数据集),电脑基本跑不动。笔记想过了,就算更换笔记本电脑,实际上也解决不了问题,毕竟现在新电脑的CPU和内存,基本上和笔者现在使用的旧的笔记本电脑不会有太大差别。最终,笔者决定尝试使用云服务,也就是说,在云端购买一台“机器”(注意,实际上云端提供的机器并非我们平时所理解的物理机器,实际上是虚拟化以后的资源)。
继续阅读

在阿里云中搭建大数据实验环境

《在阿里云中搭建大数据实验环境》
作者:厦门大学计算机科学系教师 林子雨 博士/助理教授
E-mail: ziyulin@xmu.edu.cn
个人主页:http://www.cs.xmu.edu.cn/linziyu

云计算是和自来水一样的商业模式。有了自来水,我们可以不用自己挖井,就可以快速、便捷、廉价地获得水资源。而有了云计算,我们就可以不用自己建机房、买设备、维护系统,就可以快速、便捷、廉价地获得IT资源(CPU、内存、带宽、存储和应用系统等)。正如人类社会已经全面从挖井取水过渡到自来水阶段一样,人类社会最终在IT资源获取方式方面,也会全面过渡到云计算阶段。大数据与云计算相辅相成,密不可分。云计算为大数据提供了廉价的底层基础设施,大数据为云计算提供了用武之地。因此,作为大数据学习者,应该学会如何“漫步云端”,在云中搭建起大数据系统,开展大数据实践。本文中,林子雨老师亲自购买了阿里云服务器ECS,亲自体验在云服务器ECS实例中安装大数据环境,测试各种大数据软件和代码,并把经验整理成博客资料,方便读者参考阅读。如果你也有兴趣,就让我们一起开启“云中之旅”吧。

(特别声明:本文纯属技术分享,笔者和阿里云不存在任何合作关系,选择阿里云,仅仅因为它是国内排名第一、全球排名第三的云计算服务商。学生身份还可以获得免费试用期)

第1步:购买阿里云的云服务器ECS(访问

第2步:从网页的控制台登录云服务器ECS中的Ubuntu系统(访问

第3步:为Ubuntu系统添加新的普通用户(访问

第4步:使用Putty软件实现SSH登录到Ubuntu系统(访问

第5步:使用VNC远程连接ECS实例中的Ubuntu系统(访问

第6步:使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件(访问

第7步:在ECS实例的Ubuntu系统中安装Java(访问

第8步:在ECS实例的Ubuntu系统中安装Hadoop(访问

第9步:在ECS实例的Ubuntu系统中安装Scala(访问

第10步:在ECS实例的Ubuntu系统中安装Spark(访问

第11步:在ECS实例的Ubuntu系统中安装编译打包工具sbt(访问

第12步:在ECS实例的Ubuntu系统中安装编译打包工具Maven(访问

第13步:在ECS实例的Ubuntu系统中安装IntelliJ IDEA和Scala插件(访问

第14步:在ECS实例的Ubuntu系统中安装Scala IDE for Eclipse(访问

第15步:在ECS实例的Ubuntu系统中安装HBase(访问

第16步:在ECS实例的Ubuntu系统中安装MySQL5.7(访问

第17步:为ECS中的Ubuntu14.04安装中文语言支持(访问

谈谈我在云端搭建大数据环境的感受

在阿里云搭建大数据实验环境感受分享。从2018年3月下旬开始的十几天时间,大部分时间都在加班加点在阿里云中安装大数据环境,花了1650元购买了3年的服务器使用权限,想充分利用起来。
(1)为什么我要在云中构建大数据环境?
主要原因还是在于,我发现,在自己的单机上构建大数据环境,随着大数据软件的增加和数据的增加,我的笔记本电脑根本跑不动。怎么不用台式机?台式机不方便带到教室里面去教学。我这两年给我的笔记本电脑升级了两次,总计花了1000多元,用了更快的固态盘250GB,用了16GB内存,采用在Windows系统中安装Linux虚拟机,然后在Linux虚拟机上安装大数据软件。但是,速度越来越慢,现在我要开始跑一些大型的大数据案例,根本跑不动。如果不用虚拟机,直接用双系统,电脑开机启动时直接进入Linux系统,速度会快一些,但是,进入Linux以后,很难做教学,因为教学环节经常需要使用Windows系统。所以,使用笔记本电脑做大数据教学,越来越无法满足跑各种大数据案例的需求。所以,我开始考虑向云中转移。我选择了国内排名第一,全球排名第三的云计算服务商——阿里云。
(2)在阿里云中构建大数据环境和本地一样吗?
我原来觉得是一样的,所以,就按照我原来在本地电脑安装的教程,去阿里云安装大数据软件。结果发现,有一些地方,在本地安装可以成功,在阿里云端,就是失败。有些失败的问题,到网络上到处搜索,都找不到现成的解决方案,没有办法,只能凭借自己的猜测,一个个进行蛮力测试,瞎猫碰死耗子,碰对了,问题就解决。所以,在阿里云中调试成功一款软件,有时候还是非常耗费的。我知道,其他学习者一样会遇到我踩过的坑,所以,我一边调试,一边截图,写成了指南,希望对其他学习者有所帮助。我知道,目前,很多学习者还不会使用云端,不过,以后,一些学习者肯定会产生和我一样的需求,到那个时候,相信我的指南能够帮学习者节省不少时间。

(3)在云端安装大数据软件带来的便利性
我目前已经把常用的大数据软件都在云端安装了。只要有浏览器,我可以随时随地访问云端的大数据平台。我在家里,在学校实验室,只要任何可以上网的地方,我都可以通过VNC或者Putty远程连接到阿里云的大数据平台,一些实验,我在实验室做到一半(比如程序到一半,还没有结束,就到下班时间了),我可以直接把实验室内部的本地电脑关闭,不会影响远程云端大数据平台的继续运行,然后,我回到家里,可以继续用家里电脑连接到云端,继续调试云端的大数据程序。这种方便、快速的体验,还是令人愉悦的。

(4)使用云端的大数据实验环境,速度如何?
我是在阿里云的云服务器ECS实例中构建了Ubuntu系统,并安装了全套大数据软件。通过过去十几天的运行,速度还是比较快的,要比我自己的笔记本电脑快很多。我在自己的笔记本电脑上通过VNC连接远程的大数据平台,就像在使用本地的平台一样,不会明显感觉到是远程的平台。为什么说不是明显呢?因为,如果说和本地感觉一模一样,是不可能的。主要是,画面和流畅度不会像本地那么棒。不过,我个人对这种远程效果的体验,已经很满意了,比我自己用本地电脑虚拟机的体验,好太多了。