Spark入门:支持向量机SVM分类器

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

方法简介

​ 支持向量机SVM是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机学习方法包含3种模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。线性支持向量机支持L1和L2的正则化变型。关于正则化,可以参见http://spark.apache.org/docs/1.6.2/mllib-linear-methods.html#regularizers
继续阅读

Hadoop安装

【本博客内容版权归厦门大学数据库实验室所有,未经许可,请勿转载!】

Hadoop的安装方式有三种,分别是单机模式,伪分布式模式,分布式模式。
继续阅读

Linux系统安装

本博客内容版权归厦门大学数据库实验室所有,未经许可,请勿转载!

在Linux系统各个发行版中,CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以我们建议使用CentOS 6.4系统或Ubuntu LTS 14.04。
继续阅读