厦大数据库实验室博客 | 总结、分享、收获 - 第20页

基于YELP数据集的商业数据分析

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学信息学院智能科学系2019级研究生王颖敏
指导老师：厦门大学数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

本实验采用Python语言，使用大数据处理框架Spark对数据进行处理分析，并对分析结果进行可视化。
继续阅读

大数据软件安装和基础编程实践指南（2020年6月版）

大数据软件安装和基础编程实践指南
作者：厦门大学数据库实验室林子雨博士/副教授 E-mail: ziyulin@xmu.edu.cn

（1）在Windows中使用VirtualBox安装Ubuntu虚拟机
（2）Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)
（3）Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu
（4）HDFS编程实践（Hadoop3.1.3）
（5）HBase2.2.2安装和编程实践指南
（6）MapReduce编程实践(Hadoop3.1.3)
（7）Hive3.1.2安装指南
（8）Spark安装和编程实践（Spark2.4.0）
（9）Flink安装与编程实践（Flink1.9.1）

使用Jupyter Notebook调试PySpark程序

使用Jupyter Notebook调试PySpark程序
厦门大学计算机科学系数据库实验室林子雨博士/副教授 ziyulin@xmu.edu.cn
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》，访问教材官网（http://dblab.xmu.edu.cn/post/spark-python/）

一、Jupyter Notebook简介

名称 Jupyter 是由Julia、Python和R三个单词组合而成的。Jupyter Notebook是一种Web应用，它能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中，非常方便研究和教学。Jupyter Notebook特别适合做数据处理，其用途可以包括数据清理和探索、可视化、机器学习和大数据分析。

Jupyter notebook 的核心是 Notebook 的服务器。用户通过浏览器连接到该服务器，而 Notebook呈现为Web应用。用户在Web应用中编写的代码通过该服务器发送给内核，内核运行代码，并将结果发送回该服务器。然后，任何输出都会返回到浏览器中。保存 Notebook 时，它将作为 JSON 文件（文件扩展名为 .ipynb）写入到该服务器中。
继续阅读

消除数据孤岛的重要意义

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

消除数据孤岛对于企业和政府都有重要意义。
继续阅读

大数据伦理概念

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

在西方文化中，伦理一词的词源可追溯到希腊文“ethos”，具有风俗、习性、品性等含义。在中国文化中，伦理一词最早出现于《乐纪》:“乐者，通伦理者也。”我国古代思想家们都对伦理学十分重视，“三纲五常”就是基于伦理学产生的。最开始对伦理学的应用主要体现在对于家庭长幼辈分的界定，后又延伸至社会关系的界定。
继续阅读

大数据思维

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

大数据，不仅是一次技术革命，同时也是一次思维革命。从理论上说，相对于人类有限的数据采集和分析能力，自然界和人类社会存在的数据是无限的。以有限对无限，如何才能慧眼识珠，找到我们所需的数据，无疑需要一种思维的指引。因此，就像经典力学和相对论的诞生改变了人们的思维模式一样，大数据也在潜移默化地改变人们的思想。
维克托•迈尔•舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中明确指出，大数据时代最大的转变就是思维方式的3种转变：全样而非抽样、效率而非精确、相关而非因果。此外，人类研究解决问题的思维方式，正在朝着“以数据为中心”以及“我为人人，人人为我”的方式迈进。

大数据与人工智能的关系

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

人工智能和大数据都是当前的热门技术，人工智能的发展要早于大数据，人工智能在20世纪50年代就已经开始发展，而大数据的概念直到2010年附近才形成。从百度指数的数据可以看出，人工智能受到国人关注要远早于大数据，且受到长期、广泛的关注，在近两年再次被推向顶峰。人工智能的影响力要大于大数据。大数据关注度从2013年开始得到较多关注，2017年4月达到顶峰。
继续阅读

大数据与云计算、物联网的关系

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

云计算、大数据和物联网代表了IT领域最新的技术发展趋势，三者既有区别又有联系。云计算最初主要包含了两类含义：一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术；另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是，随着大数据概念的提出，云计算中的分布式计算技术开始更多地被列入大数据技术，而人们提到云计算时，更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式（如IaaS、PaaS、SaaS）。从云计算和大数据概念的诞生到现在，二者之间的关系非常微妙，既密不可分，又千差万别。因此，我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外，物联网也是和云计算、大数据相伴相生的技术。下面总结一下三者的联系与区别。
继续阅读

高校大数据专业

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

在大数据蓬勃发展的大背景下，市场上的大数据人才缺口不断扩大。高校作为人才培养基地，顺应市场需求，培养更多的、高质量的、适应经济和社会发展的数据科学复合型人才是义不容辞的责任，高校需要及时培养出理论型、实践型、应用型的大数据人才，为数据科学研究和大数据应用贡献力量。为满足社会对大数据人才的需求，斯坦福大学、加州大学伯克利分校、密歇根大学等世界著名大学纷纷建立数据科学研究中心并设置大数据专业。在我国，大数据专业也已经成为一个炙手可热的“新工科”专业。目前，国内高校开设的大数据专业主要包括本科院校设立的“数据科学与大数据技术专业”和高职院校设立的“大数据技术与应用”专业。截至2020年，全国已经有1000余所高校设立了大数据专业。
继续阅读

大数据产业

本文摘自林子雨编著《大数据导论》（访问教材官网）

作者：厦门大学计算机科学系林子雨博士/副教授全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层，具体如表1-6所示。
继续阅读