大数据

Spark 2.1.0 入门：分类与回归

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》

Spark 2.1.0 入门：特征选取–卡方选择器(Python版)

特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。
继续阅读

Spark2.1.0 入门：特征变换–标签和索引的转化(Python版)

在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。
继续阅读

Spark 2.1.0 入门：特征抽取–CountVectorizer(Python版)

CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例如LDA。
继续阅读

Spark 2.1.0 入门：特征抽取–Word2Vec(Python版)

继续阅读

Spark 2.1.0 入门：特征抽取 — TF-IDF(Python版)

这一部分我们主要介绍和特征处理相关的算法，大体分为以下三类：

特征抽取：从原始数据中抽取特征
特征转换：特征的维度、特征的转化、特征的修改
特征选取：从大规模特征集中选取一个子集
继续阅读

Spark上机练习题：统计微博信息

本部分Spark上机练习题，是与林子雨编著《Spark编程基础》教程（官网）配套的题目，在学习完《Spark编程基础》第5章RDD编程的内容以后，可以顺利完成本题目。

【题目】Spark上机练习题：统计微博信息

继续阅读

厦大数据库实验室博客

大数据