其他

Spark 2.1.0 入门：构建一个机器学习工作流

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

继续阅读

Spark 2.1.0 入门：高斯混合模型(GMM)聚类算法

[返回Spark教程首页]

Spark 2.1.0 入门：KMeans聚类算法

[返回Spark教程首页]

KMeans 是一个迭代求解的聚类算法，其属于 划分（Partitioning） 型的聚类方法，即首先创建K个划分，然后迭代地将样本从一个划分转移到另一个划分来改善最终聚类的质量。
继续阅读

Spark 2.1.0 入门：特征抽取–CountVectorizer

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例如LDA。

继续阅读

Spark 2.1.0 入门：特征抽取–Word2Vec

[返回Spark教程首页]

Word2Vec 是一种著名的 词嵌入（Word Embedding） 方法，它可以计算每个单词在其给定语料库环境下的 分布式词向量（Distributed Representation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画每个单词的语义。
继续阅读

在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。
Spark ML包中提供了几个相关的转换器，例如：StringIndexer、IndexToString、OneHotEncoder、VectorIndexer，它们提供了十分方便的特征转换功能，这些转换器类都位于org.apache.spark.ml.feature包下。

值得注意的是，用于特征转换的转换器和其他的机器学习算法一样，也属于ML Pipeline模型的一部分，可以用来构成机器学习流水线，以StringIndexer为例，其存储着进行标签数值化过程的相关 超参数，是一个Estimator，对其调用fit(..)方法即可生成相应的模型StringIndexerModel类，很显然，它存储了用于DataFrame进行相关处理的参数，是一个Transformer（其他转换器也是同一原理）。

由于Spark2.0起，SQLContext、HiveContext已经不再推荐使用，改以SparkSession代之，故本文中不再使用SQLContext来进行相关的操作，关于SparkSession的具体详情，这里不再赘述，可以参看Spark2.0的官方文档。

Spark2.0以上版本的spark-shell在启动时会自动创建一个名为spark的SparkSession对象，当需要手工创建时，SparkSession可以由其伴生对象的builder()方法创建出来，如下代码段所示：

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().
            master("local").
            appName("my App Name").
            getOrCreate()

和SQLContext一样，也可以开启RDD的隐式转换：

import spark.implicits._

下面对几个常用的转换器依次进行介绍。

继续阅读

Spark 2.1.0入门：决策树分类器

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

一、方法简介

决策树（decision tree）是一种基本的分类与回归方法，这里主要介绍用于分类的决策树。决策树模式呈树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时，对新的数据，利用决策树模型进行分类。
继续阅读

继续阅读

厦大数据库实验室博客

其他

Spark 2.1.0 入门：构建一个机器学习工作流

Spark 2.1.0 入门：高斯混合模型(GMM)聚类算法

继续阅读

Spark 2.1.0 入门：KMeans聚类算法

Spark 2.1.0 入门：特征抽取–CountVectorizer

Spark 2.1.0 入门：特征抽取–Word2Vec

Spark2.1.0 入门：特征变换–标签和索引的转化

Spark 2.1.0入门：决策树分类器

一、方法简介

Spark2.1.0入门：机器学习工作流(ML Pipelines)

Spark2.1.0入门：Spark MLlib介绍

Spark入门：标签和索引的转化：StringIndexer- IndexToString-VectorIndexer