使用Jupyter Notebook调试PySpark程序

使用Jupyter Notebook调试PySpark程序
厦门大学计算机科学系数据库实验室 林子雨 博士/副教授 ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》,访问教材官网(http://dblab.xmu.edu.cn/post/spark-python/

一、Jupyter Notebook简介

名称 Jupyter 是由Julia、Python和R三个单词组合而成的。Jupyter Notebook是一种Web应用,它能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中,非常方便研究和教学。Jupyter Notebook特别适合做数据处理,其用途可以包括数据清理和探索、可视化、机器学习和大数据分析。

Jupyter notebook 的核心是 Notebook 的服务器。用户通过浏览器连接到该服务器,而 Notebook呈现为Web应用。用户在Web应用中编写的代码通过该服务器发送给内核,内核运行代码,并将结果发送回该服务器。然后,任何输出都会返回到浏览器中。保存 Notebook 时,它将作为 JSON 文件(文件扩展名为 .ipynb)写入到该服务器中。
继续阅读

大数据伦理概念

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

在西方文化中,伦理一词的词源可追溯到希腊文“ethos”,具有风俗、习性、品性等含义。在中国文化中,伦理一词最早出现于《乐纪》:“乐者,通伦理者也。”我国古代思想家们都对伦理学十分重视,“三纲五常”就是基于伦理学产生的。最开始对伦理学的应用主要体现在对于家庭长幼辈分的界定,后又延伸至社会关系的界定。
继续阅读

大数据思维

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

大数据,不仅是一次技术革命,同时也是一次思维革命。从理论上说,相对于人类有限的数据采集和分析能力,自然界和人类社会存在的数据是无限的。以有限对无限,如何才能慧眼识珠,找到我们所需的数据,无疑需要一种思维的指引。因此,就像经典力学和相对论的诞生改变了人们的思维模式一样,大数据也在潜移默化地改变人们的思想。
维克托•迈尔•舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。此外,人类研究解决问题的思维方式,正在朝着“以数据为中心”以及“我为人人,人人为我”的方式迈进。

继续阅读

大数据与人工智能的关系

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

人工智能和大数据都是当前的热门技术,人工智能的发展要早于大数据,人工智能在20世纪50年代就已经开始发展,而大数据的概念直到2010年附近才形成。从百度指数的数据可以看出,人工智能受到国人关注要远早于大数据,且受到长期、广泛的关注,在近两年再次被推向顶峰。人工智能的影响力要大于大数据。大数据关注度从2013年开始得到较多关注,2017年4月达到顶峰。
继续阅读

大数据与云计算、物联网的关系

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。云计算最初主要包含了两类含义:一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术;另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是,随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据技术,而人们提到云计算时,更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。下面总结一下三者的联系与区别。
继续阅读

高校大数据专业

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

在大数据蓬勃发展的大背景下,市场上的大数据人才缺口不断扩大。高校作为人才培养基地,顺应市场需求,培养更多的、高质量的、适应经济和社会发展的数据科学复合型人才是义不容辞的责任,高校需要及时培养出理论型、实践型、应用型的大数据人才,为数据科学研究和大数据应用贡献力量。为满足社会对大数据人才的需求,斯坦福大学、加州大学伯克利分校、密歇根大学等世界著名大学纷纷建立数据科学研究中心并设置大数据专业。在我国,大数据专业也已经成为一个炙手可热的“新工科”专业。目前,国内高校开设的大数据专业主要包括本科院校设立的“数据科学与大数据技术专业”和高职院校设立的“大数据技术与应用”专业。截至2020年,全国已经有1000余所高校设立了大数据专业。
继续阅读

大数据产业

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,具体如表1-6所示。
继续阅读

大数据的应用

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

“数据,正在改变甚至颠覆我们所处的整个时代”,《大数据时代》一书作者维克托•舍恩伯格教授发出如此感慨。发展到今天,大数据已经无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,表1-5是大数据在各个领域的应用情况。

继续阅读

大数据对人才培养的影响

本文摘自林子雨编著《大数据导论》(访问教材官网

作者:厦门大学计算机科学系 林子雨 博士/副教授 全国高校知名大数据教师

E-mail: ziyulin@xmu.edu.cn

大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。一方面,数据科学家是一个需要掌握统计、数学、机器学习、可视化、编程等多方面知识的复合型人才,在中国高校现有的学科和专业设置中,上述专业知识分布在数学、统计和计算机等多个学科中,任何一个学科都只能培养某个方向的专业人才,无法培养全面掌握数据科学相关知识的复合型人才。另一方面,数据科学家需要大数据应用实战环境,在真正的大数据环境中不断学习、实践并融会贯通,将自身技术背景与所在行业业务需求进行深度融合,从数据中发现有价值的信息,但是,目前大多高校还不具备这种培养环境,不仅缺乏大规模基础数据,也缺乏对领域业务需求的理解。鉴于上述两个原因,目前国内的数据科学家人才并不是由高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式不断成长起来的,其中,互联网领域集中了大多数的数据科学家人才。
继续阅读