【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。前面的介绍中,我们已经涉及到了JSON、文本格式的加载,这里不再赘述。这里介绍Parquet,下一节会介绍JDBC数据库连接。
Spark入门:MLlib基本数据类型(2)
Spark入门:MLlib基本数据类型(1)
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
MLLib提供了一序列基本数据类型以支持底层的机器学习算法。主要的数据类型包括:本地向量、标注点(Labeled Point)、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公共接口提供简单数据模型,底层的线性代数操作由Breeze库和jblas库提供。标注点类型用来表示监督学习(Supervised Learning)中的一个训练样本。
Spark2.0入门从RDD转换得到DataFrame
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是,利用反射来推断包含特定类型对象的RDD的schema,适用对已知数据结构的RDD转换;第二种方法是,使用编程接口,构造一个schema并将其应用在已知的RDD上。
继续阅读
Spark2.0入门:DataFrame的创建
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Spark2.0使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。
Spark入门:Spark MLlib介绍
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
利用Atom构建LaTex文档开发环境
LaTeX是一种基于ΤΕΧ的排版系统,因此它非常适用于生成高印刷质量的科技和数学类文档。这里介绍平时使用编辑Latex的开发环境和编辑工具。
继续阅读
LaTex 简易文档
LaTeX是一种基于ΤΕΧ的排版系统,对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。
本文主要记录LaTex的语法文档。学习前,请先访问利用Atom构建LaTex文档开发环境,搭建好文档开发环境。
继续阅读
大数据案例-步骤一:本地数据集上传到数据仓库Hive
返回大数据案例首页
《大数据课程实验案例:网站用户行为分析—-步骤一:本地数据集上传到数据仓库Hive》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载
继续阅读
Scala:for循环
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
for循环
Scala中的for循环语句格式如下:
for (变量<-表达式) 语句块
其中,“变量<-表达式”被称为“生成器(generator)”。
继续阅读