怎样成为一个数据科学家？_厦门大学数据库实验室

怎样成为一个数据科学家？

（注：本文转载自网络）

第1节: 基础

线性代数、概率论、数据库……没错，这一坨东西都是成为一个数据科学家的基础课程。如果你一门课都没有学过，呵呵，不好意思，请您看看门牌号，你可能走错教室了。

機率 (Probability) >>>

这是一个机率的入门课程，着重的是教授机率基本概念。另外我们的作业将搭配台大电机系所开发的多人竞技线上游戏方式，让同学在游戏中快乐的学习，快速培养同学们对于机率的洞察力与应用能力。

麻省: 线性代数(1) 方程组的几何解释 >>>

它的研究对象是向量，向量空间。线性变换和有限维的线性方程组。本课程讲述了矩阵理论及线性代数的基本知识，侧重于那些与其他学科相关的内容，包括方程组、向量空间、行列式、特征值、相似矩阵及正定矩阵。

第2节: 统计学

统计学是在统计实践的基础上，自17世纪中叶产生并逐步发展起来的一门社会学科。它是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据，以便给出正确认识的方法论科学，被广泛的应用在各门学科之上，从自然科学和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。

Introduction to Statistics: Inference >>>

An introduction to statistical ideas and methods commonly used to make valid conclusions based on data from random samples.

Introduction to Statistics: Probability >>>

An introduction to probability, with the aim of developing probabilistic intuition as well as techniques needed to analyze simple random samples.

Introduction to Statistics: Descriptive Statistics >>>

An introduction to descriptive statistics, emphasizing critical thinking and clear communication.

Statistics: Making Sense of Data >>>

This course is an introduction to the key ideas and principles of the collection, display, and analysis of data to guide you in making valid and appropriate conclusions about the world.

Statistics One >>>

Statistics One is a comprehensive yet friendly introduction to statistics.

>>>

本课程分为两大部份。第一部份介绍基本的统计概念与方法及其在资料分析上之应用，例如：常用的统计指标、统计图表、常态分布及检查数据是否呈常态分布的方法等；第二部份则是介绍由样本推论群体的方法（例如：估计群体平均值）、比较不同群体间平均数的差异（检定）、变异数分析及回归分析等方法。

第3节: 编程

数据科学家当然也得会编程，像什么Python，Java，JS，R啥的都得会点。Python和R有很多的科学计算工具集，掌握Python和R，您将在数据的道路上的得心应手;Java 是 Hadoop的基础实现语言，大数据这么热，您也得会玩两手; 想做出漂亮动态的图表，JS有时候也得会玩。

JavaScript是一种广泛用于客户端网页开发的脚本语言，它可以用来给HTML网页添加动态功能，实现与用户的交互。它最初由网景公司设计，是一种动态、弱类型、基于原型的语言，现在是甲骨文公司的注册商标。JavaScript是一种脚本语言，其源代码在发往客户端运行之前不需经过编译，而是将文本格式的字符代码发送给浏览器由浏览器解释运行。本课程通过JavaScript语言学习程序设计的基本概念：变量、计算、控制、循环、函数等，并深入理解JavaScript如何与浏览器和HTML的诸元素协同工作。

Python语言入门课程 >>>

本课程教你零基础学Python语言。

计算社会科学第五讲：使用Python抓取及分析互联网数据 >>>

使用Python抓取及分析互联网数据

R语言与数据挖掘 >>>

与其说R是一门语言，不如说R是一个平台，一个用于数据统计、绘图的平台。这个平台包罗万象，几乎所有与数据统计有关的内容都被囊括其中。在CRAN(Comprehensive R Archive Network)的Task Views中，计算物理、计

量经济学、实证金融、生态与环境数据分析、统计遗传学、医学图像分析等基于数据统计的科学研究都被纳入其中。当然，我们最感兴趣的聚类分析、判别分析、时间序列分析、网络分析、机器学习、高性能计算等内容也自然是其中的重要组成部分。这次，我们选择这个语言及平台中非常小的一部分内容进行简要介绍。

Computing for Data Analysis >>>

This course is about learning the fundamental computing skills necessary for effective data analysis. You will learn to program in R and to use R for reading data, writing functions, making informative graphs, and applying modern statistical methods.

Java面向对象程序设计 >>>

掌握Java基本语法、能够查找并运用Java API；利用Java的基本类库、图形用户界面方法、多线程、网络操作等技术编写Java基本应用程序。

《数据统计分析师SPSS认证》课程注重培养学员的实证分析能力，通过诸多案例讲解不同的应用背景。我们一方面尽可能呈现SPSS全貌，使学员对软件有总体的认识。

第4节: 机器学习

机器学习(Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

Neural Networks for Machine Learning >>>

Learn about artificial neural networks and how they’re being used for machine learning, as applied to speech and object recognition, image segmentation, modeling language and human motion, etc. We’ll emphasize both the basic algorithms and the practical tricks needed to get them to work well.

Machine Learning >>>

Learn about the most effective machine learning techniques, and gain practice implementing them and getting them to work for yourself.

第5节: 文本挖掘

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义，文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲，文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科，由机器学习、数理统计、自然语言处理等多种学科交叉形成。

Natural Language Processing >>>

In this class, you will learn fundamental algorithms and mathematical models for processing natural language, and how these can be used to solve practical problems.

Natural Language Processing >>>

Have you ever wondered how to build a system that automatically translates between languages? Or a system that can understand natural language instructions from a human? This class will cover the fundamentals of mathematical and computational models of language, and the application of these models to key problems in natural language processing.

第6节: 数据可视化

数据可视化是关于数据之视觉表现形式的研究；其中，这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息，包括相应信息单位的各种属性和变量。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。

TED: 颠覆性的数据可视化演示(1) TED时政 >>>

你肯定没有看过这样的数据演示。如解说体育比赛实况一般的生动与紧张，统计大师汉斯罗斯林将颠覆所谓 “发展中国家” 这一理念。

第7节: 大数据

数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

Introduction to Data Science >>>

Join the data revolution. Companies are searching for data scientists. This specialized field demands multiple skills not easy to obtain through conventional curricula. Introduce yourself to the basics of data science and leave armed with practical experience extracting value from big data.

大数据技术四大揭秘 >>>

大数据技术可运用到各行各业。宏观经济方面，IBM日本公司建立经济指标预测系统，从互联网新闻中搜索影响制造业的480项经济数据，计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具，从近千万条网民留言中归纳出六种心情，进而对道琼斯工业指数的变化进行预测，准确率达到87%。制造业方面，华尔街对冲基金依据购物网站的顾客评论，分析企业产品销售状况；一些企业利用大数据分析实现对采购和合理库存量的管理，通过分析网上数据了解客户需求、掌握市场动向。

第8节: 工具集合

不要被这么多的学习内容吓坏了，不需要为每一个算法或工具而重复造轮子，业界已经有很多成熟的解决方案。

《SQL on Hadoop》 >>>

本讲座将在第一部分讨论Hive, Tez/Stinger, Impala, Shark以及传统开源数据仓库brighthouse的特点和最新进展；在第二部分讨论Hawq/Greenplum, Phoenix, HadoopDB, Citusdata。

面向体系结构的大数据负载分析和优化 >>>

从体系结构的视角出发, 我们深入分析了流行的三大数据处理框架hadoop, Spark和GraphLab. 以这个分析为根据, 为Hadoop开发了一套C++扩展,Nativetask, 以消除计算模型和执行方式所带来的干扰.

厦门大学数据库实验室

怎样成为一个数据科学家？