Author: 林子雨老师

购买阿里云的云服务器ECS

返回《在阿里云中搭建大数据实验环境》首页

学习大数据时,学习者都是使用台式机或者笔记本电脑开始上机实验操作。但是,大数据软件非常多,普通台式机和笔记本电脑上安装了大量的大数据软件以后,运行速度会很慢。笔者也曾经花了1000元左右购买了16GB内存条和固态盘(比磁盘快),把笔记本电脑升级了一次,增加存储空间和内存空间。但是,当笔者安装了大量大数据软件以后,就发现,在进行上机操作时,速度会越来越慢,如果要跑一些综合案例(涉及到大量软件和数据集),电脑基本跑不动。笔记想过了,就算更换笔记本电脑,实际上也解决不了问题,毕竟现在新电脑的CPU和内存,基本上和笔者现在使用的旧的笔记本电脑不会有太大差别。最终,笔者决定尝试使用云服务,也就是说,在云端购买一台“机器”(注意,实际上云端提供的机器并非我们平时所理解的物理机器,实际上是虚拟化以后的资源)。
继续阅读

在阿里云中搭建大数据实验环境

《在阿里云中搭建大数据实验环境》
作者:厦门大学计算机科学系教师 林子雨 博士/助理教授
E-mail: ziyulin@xmu.edu.cn
个人主页:http://www.cs.xmu.edu.cn/linziyu

云计算是和自来水一样的商业模式。有了自来水,我们可以不用自己挖井,就可以快速、便捷、廉价地获得水资源。而有了云计算,我们就可以不用自己建机房、买设备、维护系统,就可以快速、便捷、廉价地获得IT资源(CPU、内存、带宽、存储和应用系统等)。正如人类社会已经全面从挖井取水过渡到自来水阶段一样,人类社会最终在IT资源获取方式方面,也会全面过渡到云计算阶段。大数据与云计算相辅相成,密不可分。云计算为大数据提供了廉价的底层基础设施,大数据为云计算提供了用武之地。因此,作为大数据学习者,应该学会如何“漫步云端”,在云中搭建起大数据系统,开展大数据实践。本文中,林子雨老师亲自购买了阿里云服务器ECS,亲自体验在云服务器ECS实例中安装大数据环境,测试各种大数据软件和代码,并把经验整理成博客资料,方便读者参考阅读。如果你也有兴趣,就让我们一起开启“云中之旅”吧。

(特别声明:本文纯属技术分享,笔者和阿里云不存在任何合作关系,选择阿里云,仅仅因为它是国内排名第一、全球排名第三的云计算服务商。学生身份还可以获得免费试用期)

第1步:购买阿里云的云服务器ECS(访问

第2步:从网页的控制台登录云服务器ECS中的Ubuntu系统(访问

第3步:为Ubuntu系统添加新的普通用户(访问

第4步:使用Putty软件实现SSH登录到Ubuntu系统(访问

第5步:使用VNC远程连接ECS实例中的Ubuntu系统(访问

第6步:使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件(访问

第7步:在ECS实例的Ubuntu系统中安装Java(访问

第8步:在ECS实例的Ubuntu系统中安装Hadoop(访问

第9步:在ECS实例的Ubuntu系统中安装Scala(访问

第10步:在ECS实例的Ubuntu系统中安装Spark(访问

第11步:在ECS实例的Ubuntu系统中安装编译打包工具sbt(访问

第12步:在ECS实例的Ubuntu系统中安装编译打包工具Maven(访问

第13步:在ECS实例的Ubuntu系统中安装IntelliJ IDEA和Scala插件(访问

第14步:在ECS实例的Ubuntu系统中安装Scala IDE for Eclipse(访问

第15步:在ECS实例的Ubuntu系统中安装HBase(访问

第16步:在ECS实例的Ubuntu系统中安装MySQL5.7(访问

第17步:为ECS中的Ubuntu14.04安装中文语言支持(访问

谈谈我在云端搭建大数据环境的感受

在阿里云搭建大数据实验环境感受分享。从2018年3月下旬开始的十几天时间,大部分时间都在加班加点在阿里云中安装大数据环境,花了1650元购买了3年的服务器使用权限,想充分利用起来。
(1)为什么我要在云中构建大数据环境?
主要原因还是在于,我发现,在自己的单机上构建大数据环境,随着大数据软件的增加和数据的增加,我的笔记本电脑根本跑不动。怎么不用台式机?台式机不方便带到教室里面去教学。我这两年给我的笔记本电脑升级了两次,总计花了1000多元,用了更快的固态盘250GB,用了16GB内存,采用在Windows系统中安装Linux虚拟机,然后在Linux虚拟机上安装大数据软件。但是,速度越来越慢,现在我要开始跑一些大型的大数据案例,根本跑不动。如果不用虚拟机,直接用双系统,电脑开机启动时直接进入Linux系统,速度会快一些,但是,进入Linux以后,很难做教学,因为教学环节经常需要使用Windows系统。所以,使用笔记本电脑做大数据教学,越来越无法满足跑各种大数据案例的需求。所以,我开始考虑向云中转移。我选择了国内排名第一,全球排名第三的云计算服务商——阿里云。
(2)在阿里云中构建大数据环境和本地一样吗?
我原来觉得是一样的,所以,就按照我原来在本地电脑安装的教程,去阿里云安装大数据软件。结果发现,有一些地方,在本地安装可以成功,在阿里云端,就是失败。有些失败的问题,到网络上到处搜索,都找不到现成的解决方案,没有办法,只能凭借自己的猜测,一个个进行蛮力测试,瞎猫碰死耗子,碰对了,问题就解决。所以,在阿里云中调试成功一款软件,有时候还是非常耗费的。我知道,其他学习者一样会遇到我踩过的坑,所以,我一边调试,一边截图,写成了指南,希望对其他学习者有所帮助。我知道,目前,很多学习者还不会使用云端,不过,以后,一些学习者肯定会产生和我一样的需求,到那个时候,相信我的指南能够帮学习者节省不少时间。

(3)在云端安装大数据软件带来的便利性
我目前已经把常用的大数据软件都在云端安装了。只要有浏览器,我可以随时随地访问云端的大数据平台。我在家里,在学校实验室,只要任何可以上网的地方,我都可以通过VNC或者Putty远程连接到阿里云的大数据平台,一些实验,我在实验室做到一半(比如程序到一半,还没有结束,就到下班时间了),我可以直接把实验室内部的本地电脑关闭,不会影响远程云端大数据平台的继续运行,然后,我回到家里,可以继续用家里电脑连接到云端,继续调试云端的大数据程序。这种方便、快速的体验,还是令人愉悦的。

(4)使用云端的大数据实验环境,速度如何?
我是在阿里云的云服务器ECS实例中构建了Ubuntu系统,并安装了全套大数据软件。通过过去十几天的运行,速度还是比较快的,要比我自己的笔记本电脑快很多。我在自己的笔记本电脑上通过VNC连接远程的大数据平台,就像在使用本地的平台一样,不会明显感觉到是远程的平台。为什么说不是明显呢?因为,如果说和本地感觉一模一样,是不可能的。主要是,画面和流畅度不会像本地那么棒。不过,我个人对这种远程效果的体验,已经很满意了,比我自己用本地电脑虚拟机的体验,好太多了。

HIVE-分区表详解以及实例

本文转自“博客园”,林子雨老师收藏到厦门大学数据库实验室博客中,原文链接地址是https://www.cnblogs.com/kouryoushine/p/7801924.html
HIVE中的分区表是什么,我们先看操作,然后再来体会。
继续阅读

在Eclipse中创建Dynamic Web Project

在学习大数据综合案例时,需要使用网页来呈现数据挖掘结果,因此,需要在Ubuntu中搭建Tomcat服务器,提供网页服务。同时,需要在Eclipse中建立网页项目Dynamic Web Project。Eclipse默认是不包含这个Web插件的,无法创建Dynamic Web Project,因此,需要额外安装相关插件,才能顺利创建Dynamic Web Project。本指南将引导读者一步步完成该过程。
继续阅读

在Ubuntu16.04中安装Tomcat8

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。对于一个初学者来说,可以这样认为,当在一台机器上配置好Apache 服务器,可利用它响应HTML(标准通用标记语言下的一个应用)页面的访问请求。
继续阅读

Spark上机练习题:统计微博信息

本部分Spark上机练习题,是与林子雨编著《Spark编程基础》教程(官网)配套的题目,在学习完《Spark编程基础》第5章RDD编程的内容以后,可以顺利完成本题目。

【题目】Spark上机练习题:统计微博信息

继续阅读

Spark上机练习题:统计人口平均年龄

本部分Spark上机练习题,是与林子雨编著《Spark编程基础》教程(官网)配套的题目,在学习完《Spark编程基础》第5章RDD编程的内容以后,可以顺利完成本题目。

【题目】Spark上机练习题:统计人口平均年龄

继续阅读

大数据Linux实验环境虚拟机镜像文件

大数据Linux实验环境虚拟机镜像文件(安装镜像以后,遇到需要输入密码的地方,密码都是hadoop)
【镜像下载地址】请点击这里访问百度云盘下载镜像(需要安装百度云盘客户端,文件大小是6GB)
【制作单位】厦门大学数据库实验室 林子雨 老师 (ziyulin@xmu.edu.cn)
【版本】2017年11月6日
【配套教材】包含了与林子雨编著《大数据技术原理与应用(第2版)》教材配套的大数据实验环境
【镜像说明】
此镜像是使用VirtualBox虚拟机软件导出来的,里面包含了Ubuntu系统和全套大数据软件。遇到需要输入密码的地方,密码都是hadoop。
继续阅读