【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签。
Spark ML包中提供了几个相关的转换器,例如:StringIndexer
、IndexToString
、OneHotEncoder
、VectorIndexer
,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature
包下。
值得注意的是,用于特征转换的转换器和其他的机器学习算法一样,也属于ML Pipeline模型的一部分,可以用来构成机器学习流水线,以StringIndexer
为例,其存储着进行标签数值化过程的相关 超参数,是一个Estimator
,对其调用fit(..)
方法即可生成相应的模型StringIndexerModel
类,很显然,它存储了用于DataFrame
进行相关处理的 参数,是一个Transformer
(其他转换器也是同一原理)。
由于Spark2.0起,SQLContext
、HiveContext
已经不再推荐使用,改以SparkSession
代之,故本文中不再使用SQLContext
来进行相关的操作,关于SparkSession
的具体详情,这里不再赘述,可以参看Spark2.0的官方文档。
Spark2.0以上版本的spark-shell
在启动时会自动创建一个名为spark
的SparkSession
对象,当需要手工创建时,SparkSession
可以由其伴生对象的builder()
方法创建出来,如下代码段所示:
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().
master("local").
appName("my App Name").
getOrCreate()
和SQLContext
一样,也可以开启RDD
的隐式转换:
import spark.implicits._
下面对几个常用的转换器依次进行介绍。
Spark 2.1.0入门:决策树分类器
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
一、方法简介
决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。
继续阅读
Spark2.1.0入门:逻辑斯蒂回归分类器
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
逻辑斯蒂回归
方法简介
逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。
Spark2.1.0入门:机器学习工作流(ML Pipelines)
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Spark2.1.0入门:Spark MLlib介绍
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
Spark入门:标签和索引的转化:StringIndexer- IndexToString-VectorIndexer
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特征的索引VectorIndexer。
Spark入门:Word2Vec
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。
继续阅读
Spark入门:KMeans聚类算法
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
聚类(Clustering) 是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(Unsupervised Learning) 方法。与监督学习(如分类器)相比1,无监督学习的训练集没有人为标注的结果。在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
继续阅读
Spark入门:协同过滤算法
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
一、方法简介
协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。
继续阅读
Spark入门:决策树分类器
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
一、方法简介
决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。
继续阅读