
点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想,只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序,Scala代码可以调用Java方法,访问Java字段,继承Java类和实现Java接口。在面向对象方面,Scala是一门非常纯粹的面向对象编程语言,也就是说,在Scala中,每个值都是对象,每个操作都是方法调用。
继续阅读
子雨大数据之Spark入门教程(Scala版)


【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!
Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。
ubuntu 64位解决Hadoop Native Library(编译hadoop-src)
Hadoop下载页面提供两种下载文件包,一个是已经编译好的(32位)Hadoop压缩包,另一个是Hadoop-src源代码压缩包。一般我们直接下载Hadoop压缩包直接使用即可。但是在Ubuntu 64位上成功运行Hadoop或执行Hadoop Shell命令,都会出现以下提醒:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
这是因为官网提供的Hadoop压缩包是32位,而我们使用Linux系统是64位,这就导致系统本地库不一致的提醒。当然这个提醒,并不会影响Hadoop的正常使用。要解决这个方法,只需要下载Hadoop官网提供Hadoop-src源代码压缩包在本地64位系统上重新编译即可。
继续阅读
查看HDFS文件系统数据的三种方法
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
继续阅读
Ubuntu下MongoDB的安装(离线安装方式)
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
本教程详细指导大家如何在离线状态下安装MongoDB。如果网络状态极差,而已经从MongoDB官网下载了MongoDB的安装包,可以参考本教程。
继续阅读
Ubuntu下开启MongoDB用户权限
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
本教程详细指导大家如何开启并设置用户权限。MongoDB默认是没有开启用户权限的,如果直接在公网服务器上如此搭建MongoDB,那么所有人都可以直接访问并修改数据库数据了。 其实MongoDB本身有非常详细的安全配置准则,显然开发者也是想到了,然而他是将安全的任务推给用户去解决,这本身的策略就是偏向易用性的,对于安全性,则得靠边站了。
继续阅读
Ubuntu下MongoDB安装与使用教程
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
本指南介绍了MongoDB,并详细指引读者在Ubuntu下MongoDB的安装和使用。目前第一版教材上没有收纳本章内容,可以直接使用本教程进行学习。本教程在Ubuntu14.04下测试通过。
继续阅读
Linux Shell中的管道命令
Shell中管道命令操作符为"|",仅能处理前面的一个指令传出的正确输出信息,也就是标准输出的信息(没法处理错误信息)。然后传递给下一个命令,作为标准的输入。
macOS 安装Hbase-伪分布式配置
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
本指南详细指引读者在macOS系统环境下安装Hbase。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第4章节,再结合本指南进行学习。
HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。
本教程将指导如何在苹果macOS系统安装Hbase。
macOS 安装Hadoop教程-单机-伪分布式配置
【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】
本指南详细指引读者在macOS系统环境下安装Hadoop。请务必仔细阅读完厦门大学林子雨编著的《大数据技术原理与应用》第2章节,再结合本指南进行学习。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.本教程将指导如何用苹果macOS系统安装Hadoop。