在阿里云中搭建大数据实验环境

大数据学习路线图

《在阿里云中搭建大数据实验环境》
作者:厦门大学计算机科学系教师 林子雨 博士/助理教授
E-mail: ziyulin@xmu.edu.cn
个人主页:http://www.cs.xmu.edu.cn/linziyu

云计算是和自来水一样的商业模式。有了自来水,我们可以不用自己挖井,就可以快速、便捷、廉价地获得水资源。而有了云计算,我们就可以不用自己建机房、买设备、维护系统,就可以快速、便捷、廉价地获得IT资源(CPU、内存、带宽、存储和应用系统等)。正如人类社会已经全面从挖井取水过渡到自来水阶段一样,人类社会最终在IT资源获取方式方面,也会全面过渡到云计算阶段。大数据与云计算相辅相成,密不可分。云计算为大数据提供了廉价的底层基础设施,大数据为云计算提供了用武之地。因此,作为大数据学习者,应该学会如何“漫步云端”,在云中搭建起大数据系统,开展大数据实践。本文中,林子雨老师亲自购买了阿里云服务器ECS,亲自体验在云服务器ECS实例中安装大数据环境,测试各种大数据软件和代码,并把经验整理成博客资料,方便读者参考阅读。如果你也有兴趣,就让我们一起开启“云中之旅”吧。

(特别声明:本文纯属技术分享,笔者和阿里云不存在任何合作关系,选择阿里云,仅仅因为它是国内排名第一、全球排名第三的云计算服务商。学生身份还可以获得免费试用期)

第1步:购买阿里云的云服务器ECS(访问

第2步:从网页的控制台登录云服务器ECS中的Ubuntu系统(访问

第3步:为Ubuntu系统添加新的普通用户(访问

第4步:使用Putty软件实现SSH登录到Ubuntu系统(访问

第5步:使用VNC远程连接ECS实例中的Ubuntu系统(访问

第6步:使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件(访问

第7步:在ECS实例的Ubuntu系统中安装Java(访问

第8步:在ECS实例的Ubuntu系统中安装Hadoop(访问

第9步:在ECS实例的Ubuntu系统中安装Scala(访问

第10步:在ECS实例的Ubuntu系统中安装Spark(访问

第11步:在ECS实例的Ubuntu系统中安装编译打包工具sbt(访问

第12步:在ECS实例的Ubuntu系统中安装编译打包工具Maven(访问

第13步:在ECS实例的Ubuntu系统中安装IntelliJ IDEA和Scala插件(访问

第14步:在ECS实例的Ubuntu系统中安装Scala IDE for Eclipse(访问

第15步:在ECS实例的Ubuntu系统中安装HBase(访问

第16步:在ECS实例的Ubuntu系统中安装MySQL5.7(访问

第17步:为ECS中的Ubuntu14.04安装中文语言支持(访问

谈谈我在云端搭建大数据环境的感受

在阿里云搭建大数据实验环境感受分享。从2018年3月下旬开始的十几天时间,大部分时间都在加班加点在阿里云中安装大数据环境,花了1650元购买了3年的服务器使用权限,想充分利用起来。
(1)为什么我要在云中构建大数据环境?
主要原因还是在于,我发现,在自己的单机上构建大数据环境,随着大数据软件的增加和数据的增加,我的笔记本电脑根本跑不动。怎么不用台式机?台式机不方便带到教室里面去教学。我这两年给我的笔记本电脑升级了两次,总计花了1000多元,用了更快的固态盘250GB,用了16GB内存,采用在Windows系统中安装Linux虚拟机,然后在Linux虚拟机上安装大数据软件。但是,速度越来越慢,现在我要开始跑一些大型的大数据案例,根本跑不动。如果不用虚拟机,直接用双系统,电脑开机启动时直接进入Linux系统,速度会快一些,但是,进入Linux以后,很难做教学,因为教学环节经常需要使用Windows系统。所以,使用笔记本电脑做大数据教学,越来越无法满足跑各种大数据案例的需求。所以,我开始考虑向云中转移。我选择了国内排名第一,全球排名第三的云计算服务商——阿里云。
(2)在阿里云中构建大数据环境和本地一样吗?
我原来觉得是一样的,所以,就按照我原来在本地电脑安装的教程,去阿里云安装大数据软件。结果发现,有一些地方,在本地安装可以成功,在阿里云端,就是失败。有些失败的问题,到网络上到处搜索,都找不到现成的解决方案,没有办法,只能凭借自己的猜测,一个个进行蛮力测试,瞎猫碰死耗子,碰对了,问题就解决。所以,在阿里云中调试成功一款软件,有时候还是非常耗费的。我知道,其他学习者一样会遇到我踩过的坑,所以,我一边调试,一边截图,写成了指南,希望对其他学习者有所帮助。我知道,目前,很多学习者还不会使用云端,不过,以后,一些学习者肯定会产生和我一样的需求,到那个时候,相信我的指南能够帮学习者节省不少时间。

(3)在云端安装大数据软件带来的便利性
我目前已经把常用的大数据软件都在云端安装了。只要有浏览器,我可以随时随地访问云端的大数据平台。我在家里,在学校实验室,只要任何可以上网的地方,我都可以通过VNC或者Putty远程连接到阿里云的大数据平台,一些实验,我在实验室做到一半(比如程序到一半,还没有结束,就到下班时间了),我可以直接把实验室内部的本地电脑关闭,不会影响远程云端大数据平台的继续运行,然后,我回到家里,可以继续用家里电脑连接到云端,继续调试云端的大数据程序。这种方便、快速的体验,还是令人愉悦的。

(4)使用云端的大数据实验环境,速度如何?
我是在阿里云的云服务器ECS实例中构建了Ubuntu系统,并安装了全套大数据软件。通过过去十几天的运行,速度还是比较快的,要比我自己的笔记本电脑快很多。我在自己的笔记本电脑上通过VNC连接远程的大数据平台,就像在使用本地的平台一样,不会明显感觉到是远程的平台。为什么说不是明显呢?因为,如果说和本地感觉一模一样,是不可能的。主要是,画面和流畅度不会像本地那么棒。不过,我个人对这种远程效果的体验,已经很满意了,比我自己用本地电脑虚拟机的体验,好太多了。