《数据采集与预处理》课程思政案例

林子雨编著《数据采集与预处理》教材配套

课程思政案例

案例制作:厦门大学数据库实验室 夏小云 老师

作者:厦门大学计算机科学系  林子雨  博士/副教授
出版社:人民邮电出版社  2022年1月第1版
ISBN:978-7-115-58063-4 

访问教材官网

章节 思政元素
第1章 概述 创新创业精神,爱国敬业
第2章 实验环境搭建 工匠精神,追求卓越
第3章 网络数据采集 社会主义价值观,民族自豪感
第4章 分布式消息系统Kafka 团队协作,爱岗敬业,匠人精神
第5章 日志采集系统Flume 责任意识,爱国情怀,数据安全
第6章 数据仓库中的数据集成 与时俱进,不断探索,推陈出新
第7章  ETL工具Kettle 匠人精神,协作精神
第8章 使用pandas进行数据清洗 迎难而上,坚韧不拔,笃信躬行

第1章-概述

思政元素 — 创新创业
案例:工匠精神:创新
【思政元素引入位置】讲完第1章概述后
【说明】大数据的发展是一个不断由量变到质变的过程,面对新的数据体量,对数据的处理和分析提出了新的要求,所以需要我们不但要有创新意识。
南京大学历史学系教授、国家非物质文化遗产保护工作专家委员会委员—徐艺乙,研究传统手工艺42年。他翻译的《工艺之道》《民艺四十年》等书籍,成为当下工艺文化爱好者的“圣经”。

过去常说没有创造就没有创新。创新是一种非常困难的事,创新不是嘴上说,而是需要做出来的。在手工艺中,人们要充分理解材料、充分掌握技艺、能够完全把控产品的样式。有了这样的水平,加上认真的态度和精益求精的精神,最大限度地发挥产品的作用,就是中国人的手艺精神。

案例:字节跳动创始人张一鸣,4次创业失败,第五次改变6亿中国人
【思政元素引入位置】讲完第1章概述后
【说明】大数据技术的发展离不开敢为人先的探索者,数据处理技术的不断成熟也需要更多创新创业者的共同参与和助力。未来也会有更多新的技术推陈出新,需要同学们也要有探索精神。

字节跳动作为一家世界上最值钱的初创公司,不断地在刷新它自身的成长记录。今日头条、抖音、Tik Tok,字节跳动旗下的多个软件都具有着庞大的用户群体,在2021年,字节跳动旗下的产品获得了来自世界超过150个地区的19亿月活量,在中国,今日头条已经达到了3.2 亿的月活用户。成就字节跳动的创始人就是来自福建龙岩的张一鸣。

张一鸣于1983年出生于福建龙岩一个相对富足的家庭,父母虽然是事业单位职工,但非常开明,在宽松的家庭氛围中造就了张一鸣有主见、有行动力的性格特点。但张一鸣的学习并没有因为父母的“放养”而落了下风,反而在2001年以优异的成绩考入了南开大学的微电子专业,之后又转入了软件工程专业。

2005年,张一鸣在南开大学毕业开始了自己的第一次创业经历。刚毕业的张一鸣和大学同学组建了一个三人小团队,一起研发了一个企业协同办公系统。但由于当时大家经验都不足,没能弄清楚产品的市场定位,导致这个系统没有推销出去,第一次创业失败。

第二次创业是在2006年,张一鸣进入酷讯,负责酷讯的搜索研发,之后于2008年离开酷讯去了微软。2008年9月,张一鸣离开微软,以技术合伙人身份加入饭否开始了第三次创业,当时张一鸣主要负责饭否的搜索、消息分发、热词挖掘、防作弊等方向。2009年10月,张一鸣第一次开始独立创业,创办了“九九房”,这是一个垂直房产搜索引擎。6个月间实现150万用户,是当时房产类应用的第一名。“九九房”取得成功后,张一鸣并没有就此满足,相反,他有了更大的梦想与野心。2011年底,张一鸣辞去了“九九房”CEO,开始了新的创业之路。

2012年,张一鸣成立了“字节跳动”,在经过详细的市场调研后于同年5月份,推出了一款试水产品“内涵段子”,并收到了不错的反响。2012年8月份,张一鸣又推出了“今日头条”,在这个软件里,张一鸣挖掘到了分析用户喜好数据并推送相关内容这一点,也就是这一突破,不仅使“今日头条”大获成功,在之后推出的“抖音”里,也同样延续了这一特点。这个就是影响了6亿国人的短视频软件“抖音”背后的底层逻辑。

也正是“抖音”,让张一鸣身价暴涨,正式成为了互联网行业中80后第一人。2018年,字节跳动的估值达到了750亿美元,成功入选“2019福布斯中国最具创新力企业榜”。2022年3月,张一鸣以3400亿元位列《2022家大业大酒·胡润全球富豪榜》第23位,并以500亿美元位列《2022福布斯全球亿万富豪榜》第25位。

成功绝不是一件偶然的事情,想要成功的人,在机遇面前不会过多犹豫,更是拥有敢为先人的勇气,小到个人成长,大至企业发展,收获成功的道理都是一样的—需要不断努力、持之以恒,发展资源、把握机会,经受打击、快速振作,千帆历尽,终达彼岸。所以,我们要仰望星空,脚踏实地,认真学习。

第2章 – 实验环境搭建

思政元素 — 匠人精神
案例:“火药雕刻师”徐立平:为国铸“箭” 行走在生死边缘
【思政元素引入位置】讲完第2章结束后
【说明】实验环境的搭建是一个系统庞杂的工作,每一步配置和实操都需要认真谨慎,如果配置出错,一步错,步步错,后面会影响整个程序的运行和后续实验的开展,所以我们需要在每个步骤尽量保证细致无误,发扬匠人精神,不断精益求精。

他所在的工厂,是世界上最神秘的工厂之一。而他的职业,曾经在很长的一段时间里不为人所知,他就是航天科技集团第四研究院7416厂固体火箭发动机药面整形工,国家高级技师、航天特级技师—徐立平。

自1987年入厂,徐立平一直为导弹固体燃料发动机的火药进行微整形。固体燃料发动机是战略战术导弹装备的心脏,也是发射载人飞船火箭的关键部件。它的制造有上千道工序,要求最高的工序之一就是发动机固体燃料的微整形。雕刻固体燃料,也就是火药,极其危险,稍有不慎蹭出火花,就会引起燃烧,甚至爆炸。

火药整形在全世界都是一个难题,无法完全用机器代替。下刀的力道,完全要靠工人自己判断,火药整形不可逆,一旦切多了,或者留下刀痕,药面精度与设计不符,发动机点火之后,火药不能按照预定走向燃烧,发动机就很可能偏离轨道,甚至爆炸。0.5毫米是固体发动机药面精度允许的最大误差,而经徐立平之手雕刻出的火药药面误差不超过0.2毫米,堪称完美,这让他的师傅都望尘莫及。

第3章 网络数据采集

思政元素 — 社会主义价值观,民族自豪感

案例:正确的金钱观
【思政元素引入位置】讲完3.1 网络爬虫概述后
【说明】在大数据挖掘的爬虫技术阶段,应用爬虫技术如果不当,会给国家和企业造成负面影响。

在国家发生一些重大危机的时候,人们的表现都不一样,一些人秉承救死扶伤的原则,义无反顾的救人,但还有一些人在趁此储存大量的物资,发国难财。这些人太看重金钱,从事违法和违纪的事情。在大数据挖掘的爬虫技术阶段,应用爬虫技术是一种按照一定标准制作程序流程脚本,并自动请求互联网网站并获取数据网络(仅用于发布)。但是,如果该应用程序不科学,则会带来违反法规的风险,例如:不遵循爬虫协议,以敏感的长宽比获取某些信息内容以及利用商业活动来赚钱,违反纪律。根据比较教学方法,该示例当然与网络爬虫的学习阶段有关,这是让学生掌握技术是一把双刃刀。只有正确使用它们,才能发挥更大的作用,要正确对待学生的志向并将其转化为才能。

案例:健康码背后的大数据采集技术
【思政元素引入位置】讲完第3章全章
【说明】在疫情阶段,利用大数据采集技术,快速制定防疫制度和措施,极大方便大家出行,国家通过各大新兴技术手段提升了治理水平和响应速度,增强了学生对国家和民族的自豪感。

健康码作为实名认证的电子二维码,通过颜色展示个人疫情风险等级。与人工方式采集和填报疫情信息相比,健康码的信息采集、汇总、分析和上报的效率更高,满足了实时防控的需求,是抗击疫情的关键助力。健康码的颜色由个人信息、地理位置信息、出行信息共同决定。这些信息来源于不同的数据库,信息之间的融合需要大数据采集技术和同步技术的支撑。健康码软件的设计开发体现了中国IT公司世界一流的科技创新能力,其推广和实施有赖于广大人民群众众志成城的支持。在教学过程中融入该案例能够激发学生对大数据技术的学习热情,也有助于增强学生对国家和民族的自豪感。

第4章分布式消息系统Kafka

思政元素 — 协作精神,职业使命感
案例:Kafka生产者和消费者模式体现的协作精神
【思政元素引入位置】讲完4.1 Kafka简介

【说明】Kafka由生产者和消费者构成,二者需要相互配合才能实现大数据的高效采集与同步
Kafka 利用消息队列来实现大数据的采集和同步。消息队列由消息生产者和消费者构成。生产者生产消息并将其发送到队列中,然后消息消费者从队列中取出并且消费消息。生产者生成消息的能力高于消费者处理消息的能力就会造成消息队列中消息积压和丢弃。生产者生成消息的能力低于消费者处理消息的能力就会造成消费者闲置和资源的浪费。这就要求消息队列两端的生产者和消费者处理消息协同一致。在教学过程中以此案例来培养学生的团队协作精神,教育学生在日常工作中应该善于沟通,团结协作,为团队和集体贡献自己的力量。

案例:全国敬业奉献模范 –袁隆平
【思政元素引入位置】讲完4.2 Kafka在大数据生态系统中的作用
【说明】kafka是一个高吞吐的分布式消息队列系统。在公司的大数据生态系统中,可以把Kafka作为数据交换枢纽,不同类型的分布式系统(关系数据库、NoSQL数据库、流处理系统、批处理系统等),可以统一接入到Kafka,实现和Hadoop各个组件之间的不同类型数据的实时高效交换,较好地满足各种企业应用需求。同时,借助于Kafka作为交换枢纽,也可以很好解决不同系统之间的数据生产/消费速率不同的问题。Kafka作为桥梁和纽带,不断接收和分发数据,保证顺序,自己不丢数据,默认7天清理数据。这种坚守岗位,就和我们每一个平凡的工作者一样,发挥自己的价值,它体现的是一种职业的使命感,一种敬业精神,一种匠人精神。

2004年感动中国人物颁奖词: 他是一位真正的耕耘者。当他还是一个乡村教师的时候,已经具有颠覆世界权威的胆识;当他名满天下的时候,却仍然只是专注于田畴。淡薄名利,一介农夫,播撒智慧,收获富足。他毕生的梦想,就是让所有人远离饥饿。

他一辈子只做一件事,却把这件事做到了极致,他就是“杂交水稻之父”-袁隆平,他“用一粒种子改变了世界。”但你可能不知道,这粒种子是怎么找到的,14天,14万株水稻,他左手持放大镜,右手拿镊子,弯腰弓步,在湘西稻田一株一株地找,终于找到了一棵雄性不育株水稻。1961年7月的一天,袁隆平发现一株稻株结出了230多粒稻子,他推算用这个稻株做种子,水稻亩产会上千斤,而当时高产的水稻才不过五六百斤。在袁隆平的努力坚持下,他带领科研团队不断研发,接连攻破水稻超高产育种难题,水稻亩产从700公斤突破到1200公斤,袁隆平带领着他的团队一次次刷新着世界纪录。

回忆曾经缺粮的苦,他一字一句严肃地说:“一粒粮食能救一个国家,也可以绊倒一个国家。”而今天,他的所作所为,不正是一个国家的拯救者吗?今天中国水稻种植面积中,约有一半是采用袁隆平培育的杂交产品,每年生产的稻谷可以多养活 6000多万人。在杂交水稻研究的初期,困难重重,十分艰苦,袁隆平却乐观地说:“人生最大的幸福是能够心情舒畅地干自己想干爱干的事业,对于我来说,下田实验,这是一种想要穷极大自然奥秘的无限乐趣。”

袁隆平的事迹时时刻刻鼓舞着我们坚守岗位,专注和坚持一定会有所收获。

案例:敢于担当,主动作为—马俊飞
【思政元素】职业使命感,不怕苦,不畏难
【思政元素引入位置】讲完4.2 Kafka在大数据生态系统中的作用
【说明】kafka是一个高吞吐的分布式消息队列系统。在公司的大数据生态系统中,可以把Kafka作为数据交换枢纽,不同类型的分布式系统(关系数据库、NoSQL数据库、流处理系统、批处理系统等),可以统一接入到Kafka,实现和Hadoop各个组件之间的不同类型数据的实时高效交换,较好地满足各种企业应用需求。同时,借助于Kafka作为交换枢纽,也可以很好解决不同系统之间的数据生产/消费速率不同的问题。Kafka作为桥梁和纽带,不断接收和分发数据,保证顺序,自己不丢数据,默认7天清理数据。这种坚守岗位,就和我们每一个平凡的工作者一样,发挥自己的价值,它体现的是一种职业的使命感,一种敬业精神,一种匠人精神。

2020年因新冠疫情而变得特殊,无数民航人勇往直前、敢于担当,为保障航班正常运行贡献了力量。2月10日,马俊飞主动向所属部门领导请缨留守基地,协助保障航班安全生产运行。他深知,自己身兼乘务督导和共产党员双重身份,此时正是自己勇担重任、争做表率的时候,他要发挥标杆力量,不仅要保障航班运行,还要给乘务员带去正能量和信心。马俊飞每日认真细致做好疫情监测、预警工作,细心统计基地乘务员的体温情况,及时提示乘务员做好消毒防护工作,协调各部门有序开展工作,合力保障航班正常运行。这一次,马俊飞在基地坚守了32天,共执行航班11余次。

马俊飞还会在业余时间组织乘务员们开展文体活动,他了解到很多乘务员都爱好打篮球,便组织大家开展篮球友谊赛,增强同事间的沟通协作,同时又能锻炼身体素质。马俊飞还特别关注每位乘务员的状态,会主动了解大家的性格喜好,与乘务员们打成一片。驻站郑州期间,马俊飞会为过生日的乘务员组织生日会,会主动询问乘务员们是否有什么困难,设身处地为大家排忧解难。转眼间,马俊飞在郑州外站坚守整整65天,他始终坚守着岗位,助力复产复工。

总结:引申出每个人都有自己的位置,小到一个班级、一个家庭, 大到一个国家,每个人都应该积极响应号召、各司其职、做好自己的本职工作,为集体贡献自己的力量。就像抗击新冠疫情期间,疾控工作人员、医护人员、科技工作者、广大党员、 人民群众等积极响应党的号召,坚守自己的岗位,奋力夺取抗疫斗争全面胜利。

第5章日志采集系统Flume

思政元素 — 责任意识,爱国情怀,数据安全

案例:员工误删数据库对公司业务运行造成重大影响
【思政元素引入位置】讲完第5章后
【说明】日志采集涉及多种链接和操作,如果粗心,会误删数据,对企业的业务造成损失。
某IT公司员工在未看清所选内容的情况下,便执行了drop命令,无视系统提示直接回车,导致生产线重要数据库被意外删除。他不严谨的工作态度导致运营监控系统停滞了数个小时。这次事故导致员工被解聘,对他以后的职业生涯也产生了负面影响。大数据的采集需要掌握数据库的基本操作指令,包含有insert、show、drop等多条指令。其中drop命令会删除相关的库和表,在执行时要谨慎,防止误删重要数据,给公司造成重大损失。在教学过程中以此案例来警示学生,培养学生精益求精,严谨为实的工匠精神。

案例:员工窃取公司信息牟利被判刑
【思政元素引入位置】讲完第5.4和5.5后
【说明】日志采集涉及企业数据,属于企业核心资产,一旦非法窃取,将会严重影响企业利益。
某IT公司员工工作调动后未主动清理系统登录信息,反而利用系统漏洞越权访问,窃取公司数据并透露给外部公司获利,最终被判犯非法获取计算机信息系统数据罪,判处有期徒刑一年,并依法追缴违法所得。在利用DataX、Kafka等工具完成大数据采集和同步任务时,操作者可能来自第三方公司,是有权限访问客户企业数据库的。在教学过程中以此案例来警示学生,培养学生的遵纪守法意识和诚实守信的品质。大数据技术从业人员应该熟悉信息安全相关的法律法规并具备一定的技术能力,从而守护好个人和公司信息数据的安全。

案例:增强数据安全意识,共同维护国家安全
【思政元素引入位置】讲完第5章后
【说明】日志采集涉及数据安全,需要增强数据安全意识,共同维护国家安全。

当代社会信息化和网络化不断深入,数据已逐渐成为与物质资产和人力资本同样重要的基础生产要素,被广泛认为是推动经济社会创新发展的关键因素。拥有的规模和运用能力,不仅是企业或组织业务发展的核心驱动力,与个人消费、个人属性特征隐私等问题息息相关,而且也已成为国家经济发展的新引擎,是综合国力的重要组成部分。随着云计算、大数据、物联网、智慧城市、移动互联网等技术和应用的日渐兴起,发展大数据成为大势所趋。

然而,数据在体现和创造价值的同时,也面临着严峻的安全风险,一方面数据流动打破安全管理边界,导致了数据管理主体风险控制力减弱;另一方面数据资源因具有价值,引发数据安全威胁持续蔓延,数据窃取、泄露、滥用、劫持等攻击事件频发。

2018年3月,Facebook超过5000万用户信息数据被一家名为“剑桥分析”(Cambridge Analytica,以下简称“CA”)的公司泄露。根据英国、美国媒体报道,此次数据泄露的源头是英国剑桥大学心理学教授亚历山大-科根(Aleksandr Kogan)2014年推出的一款应用软件“这是你的数字化生活”(thisis your digital life)。这款应用搜集的信息包括用户住址、性别、种族、年龄、工作经历、教育背景、人际关系网络、平时参加何种活动、发表了什么帖子、阅读了什么帖子、对什么帖子点过赞等细节内容。有媒体甚至指出,CA所获悉的Facebook用户信息被用于在2016年美国总统大选中针对目标受众推送广告,从而在一定程度上影响了大选结果。2017年5月12日,全球范围爆发针对Windows操作系统的勒索软件(WannaCry)感染事件。该勒索软件利用此前美国国家安全局网络武器库泄露的WindowsSMB服务漏洞进行攻击,将被攻击的用户文件加密,并要求用户支付比特币才能取回文件,否则将赎金翻倍或者将文件彻底删除。全球100多个国家数十万用户中招,我国国内的企业、学校、医疗、电力、能源、银行、交通等多个行业均遭受不同程度的影响。

数据安全是一项系统工程,需要经济发展与安全管理并重,要积极发挥政府机关、行业主管部门、组织和企业、个人等多元主体作用,依据《国家安全法》《网络安全法》等法律法规要求,共同参与到我国网络与信息安全保障体系建设工作中来,做到知法守法,认真履行有关数据安全风险控制有关义务和职责,增强数据安全可控意识,共同维护国家安全秩序。

案例:数据安全关乎国家安全,已成为国家战略资源
【思政元素引入位置】讲完第5章后
【说明】日志采集涉及数据安全,需要增强数据安全意识,共同维护国家安全。

大数据时代模糊了涉密数据和非涉密数据的绝对界限,碎片化数据、模糊化数据等传统意义上被认为安全的数据,但在大数据时代,将海量的碎片化、模糊化数据汇聚到一起,即使这些数据在公开之前经过了精心的脱密处理,通过深入的大数据关联分析,也可以洞察到隐藏在大数据表象背后的重要情报。

2007年3月,美国海军部情报局发布了《中国海军2007》内部手册,其内容主要来自China’s Maritime Strategy,The Great Wall at Sea: China’s Navy Enters the Twenty-First Century,《中国国防白皮书》《中国海军百科全书》《海军大辞典》等国内外出版的公开资料。与传统的美国海军作战手册相比,手册中并没有各种舰船的清单和图解,但却详细介绍了中国海军的组织体制、领导层、政治工作制度、海军军事学术,以及海军的人力系统、部队训练、对外交往、武器装备等内容。

海湾战争中,“沙漠风暴”行动的前30个小时,美国海军陆战队第一远征军的指挥机构就收到130万份电子文件。在海湾战争和伊拉克战争打响前,美军正是通过数据化思维,在作战实验室里对作战方案进行多次模拟,并根据计算结果进行修改完善,最终获得了战争的胜利。未来信息化战争将是陆、海、空、天、电等多维空间的一体化联合作战行动,参战的军兵种多、武器装备种类多、作战样式多,作战协同十分复杂。如果对编制、装备、人员、时间、区域、距离等数据缺乏定量分析和精确计算,就不可能有科学的决策。

数据安全在国家安全领域范畴不仅仅体现在军事安全,实际上,数据已经与政治安全、经济安全、文化安全共同成为国家安全的重要组成部分。
以疫情为例,2020年初的疫情暴发之后,大数据在中国政府、互联网、电信、工业、金融、健康医疗等行业均提供了强有力的支撑。其中,应急指挥平台、疫情防控大数据平台等成为疫情下政府大数据建设的重点;电信大数据支撑服务疫情态势研判、疫情防控部署以及对流动人员的疫情监测,助力相关部门精准施策;工业大数据解决疫情下物资流通、企业复工复产等问题。大数据的有效运用,为中国打赢“疫情战争”、维护社会和经济稳定、维护国家各领域安全做出了重要贡献。

第6章 数据仓库中的数据集成

思政元素 — 与时俱进,推陈出新
【思政元素引入位置】讲完第6章后
【说明】从传统的数据库到实时主动的数据库,从ETL到CDC, 数据集成的技术根据业务场景的需要,不断与时俱进,推陈出新。

案例:“顶级”科学家又添一人!靠研究芯片而闻名,如今身价175亿
在当今这个科技时代,世界各国都在竞相争夺科技领域的发展成果,人工智能也是科技领域备受瞩目的一大类别,如今这一赛道已经人满为患,但是并没有哪个国家拥有绝对领先的优势,在各国竞争水平相差不多的背景下,人工智能也成为竞争激烈的一大行业。在人工智能领域最关键的就是芯片,如今中国又新添一位顶级科学家,他靠研究芯片而名誉全球,如今身价高达175亿,此人就是陈天石。

过人的学习天赋使陈天石成了中科院计算机所的研究员和博士生导师,当陈天石意识到,在金融制造以及互联网这些行业中,传统劳动力不断面临着被淘汰的局面,很多管理者都在竞相引进大批人工智能应用,和传统劳动力相比,人工智能拥有着智能化、精准度高且性价比高的优势,可真正能够让人工智能发挥作用的地方就在于芯片支持,芯片的好坏直接决定着人工智能的发展高度。确定方向以后,果断参与到国家龙芯芯片的研究中,而他正是当年AI+芯片设计的提出者。

为了能够帮助我国开拓科学发展道路,陈天石还专门打造了深度学习处理器原型芯片,这也是整个国际社会中尚且处于空白的领域,他凭借着此举做到了“全球第一”。

但陈天石的成功则给大家带来了新希望,也让我们看到了人工智能领域发展的可能,陈天石金永利几年,就为大众亮相了一系列有价值的研究成果,还获得了世界级处理器架构领域的荣誉。此时的陈天石可谓是功成名就,但更为难得的是,陈天石一直保留着可贵的家国情怀,他并没有像其他名人大佬一样,在有所成就之后携带资产到国外生活享受,而是一直在国内谋求促进祖国的长远发展,努力推动国内芯片产业的新成果。

在他担任寒武纪的CEO期间,与我国华为公司合作,共同联合研发攻关,推出了麒麟970,这一芯片的推出更给中国芯片行业发展带来了新希望,甚至让整个行业都引发了新震荡,他们凭借着此举一改中国在芯片领域的被动之处。

第7章 ETL工具Kettle

思政元素 — 匠人精神,协作精神
案例:Kettle四大组件相互协作
【思政元素引入位置】讲完7.1 Kettle的基本概念后
【说明】从Kettle和核心组件切入,每个组件需要相互协作,共同完成数据的抽取和转换。

Kettle是一款国外开源的ETL工具,中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle:四大家族(核心组件)
  Chef、Kitchen、Spoon和Pan(中文:平底锅)
  Chef—工作(job)设计工具 (GUI方式)。
  Kitchen—工作(job)执行器 (命令行方式)。
  Spoon—转换(transform)设计工具 (GUI方式)。
  pan—转换(transform)执行器 (命令行方式)。

每个组件相互协作,共同完成数据的抽取和转换,每一个组件都需要有“责任意识”,团结一致,才能高效运转。

案例:蒋步星:“大数据匠人”是怎样炼成的?
【思政元素引入位置】讲完7章后
【说明】从Kettle的实际功能入手,通过Kettle操作,数据一种标准的格式输出,而且数据的抽取高效稳定,数据的转换。Kettle所完成的工作,既是一种标准,也是一种匠人精神的体现。

蒋步星是1989年中国首次获得国际数学奥林匹克竞赛(IMO)团体冠军的主力队员,个人金牌获得者。年青的他在清华计算机系度过了7年学习时光,其间只从家里拿过一千元钱,靠课余讲课、编写程序赚钱供养了自己的学业。
如今的他作为北京润乾信息系统技术有限公司(以下简称“润乾软件”)的创始人、首席科学家,先后荣获“2016年中国软件和信息服务业的十大领军人物”和“2017中国数据大工匠”称号,始终秉承“创新技术推动应用进步”的理念,在中国大数据发展道路上书写着大国工匠情怀。
他就是清华大学计算机系89级系友蒋步星,一位能写书、会弹琴的“数据匠人”……
瞄准企业软件,创业初有成
在清华度过的7年学习时光,蒋步星只有在第一次踏入大学校门时从家里拿过1000元钱“启动基金”,其他的学习和生活支出都是自己赚出来的,低年级时讲奥数课,高年级时帮别人开发软件。凭着开发的屏幕取词软件、中小学校长办公系统以及CAI课件产品等等软件,他每月都有数千元收入,成为同学中的“有钱人”。先“富”起来的蒋步星特别“讲义气”,平时跟兄弟们出去吃饭,买单的基本都是他。这段超前的“IT实践”经验,使得蒋步星对于“IT”市场的了解和认识飞速发展和成熟,形成了敏锐的市场判断力。自主创业的“种子”在这个时期已经开始萌发。后来在清华紫光系统集成部、长天计算机系统公司等国内知名公司担任管理职务期间,蒋步星越发明晰了自己的抱负所在,凭着深厚的理论基础和实践经验,蒋步星敏锐的捕捉到企业级通用软件市场未来存在巨大的发展空间。于是,在2000年6月,蒋步星正式走上了创业之路。用自己辛苦积攒的30万元,他创办了润乾软件,经过五年的摸爬滚打,终于凭借面向企业应用的报表软件——润乾报表V3.0,建立了对国外同类软件的竞争优势。
“精雕细琢”做“匠人”
自从创业至今,蒋步星执着于“要拥有自己的核心技术”。无论是最初的研发报表,还是后来的“数据计算”,蒋步星坚信“唯有创新才能生存”。在做报表之初,为了解决数据展现问题,蒋步星研究了数千张报表,研发出了非线性报表模型,一举解决中国报表问题,大大提升制表报表工作效率。为了解决报表的数据准备问题,又带领团队勇于创新,研发出了一套数据计算引擎,设计了一套程序语言,作为报表工具的辅助模块提高工作效率,解决了数据计算在描述和实施上的效率问题,实现了对国内外行业传统做法的颠覆和超越。后来又发现计算本身比数据展现应用面更广,在理论和实践方面都有很大的研究价值,蒋步星又带着团队把计算引擎独立出来,并将在其基础上发展数据库、数据仓库等产品。现如今,他们正朝着拥有自主产权的非关系型强计算数据库仓库/云数据库产品迈进,并最终实现拥有从数据呈现与采集到数据计算与存储的全线数据处理软件,为国内金融、电信、能源、政府、军工等多个行业提供高效便捷的数据产品,全面解决数据采集、处理与展现分析领域的问题。
“要尽可能地为社会多做点有价值的事”,蒋步星没有辜负自己曾经许下的承诺。他不但把多年研发出来的最领先的报表工具核心理论付诸笔端,形成《非线性报表模型原理》在中国科学技术出版社出版发行,与计算机科学领域的研究人员和软件开发人员进行分享和交流,而且还继续执着地带领润乾“从客户角度出发解决实际问题,并不断地完善下去。
正是凭着对产品的高品质坚持和追求,蒋步星带领着润乾实现了“计算引擎”中国造,以实际行动对大数据领域的工匠精神进行了深度诠释。
“理念先行、技术支撑、产品落地、商业闭环”,蒋步星和他的润乾在今后的道路上将继续怀揣一颗工匠之心,求真务实、以创新为动力,为中国大数据贡献自己的力量,做中国大数据的有力支撑。

第8章 使用pandas进行数据清洗

思政元素 — 迎难而上,坚韧不拔,笃信躬行
案例:詹天佑排除万难修京张铁路
【思政元素引入位置】讲完【8.5 处理缺失数据】小节后
【说明】缺失数据是大部分数据分析应用中都很常见的问题。在处理缺失数据的过程中,我们需要检查缺失值,清理或者填充缺失值以及处理丢失缺少的值,过程非常复杂,也会遇到各种各样问题,当我们遇到问题的时候,我们需要学习伟人或前辈“迎难而上”的精神,不屈不挠解决问题,方法总体困难多,只要我们善于思考,积极面对和处理问题,就一定会得到最优的数据分析呈现。

詹天佑主持京张铁路时,在严峻恶劣的环境下,要克服三个困难:地势险要,气候恶劣和设备缺乏。詹天佑不怕困难,也不怕嘲笑,毅然接受了任务,开始勘测线路。 哪里要开山,哪里要架桥,哪里要把陡坡铲平,哪里要把弯度改小,都要经过勘测,进行周密计算。詹天佑经常勉励工作人员说: 我们工作首先要精密,不能有一点儿马虎。‘大概’,‘差不多’,这类说法不应该出自工程人员之口。他亲自带着学生和工人,背着标杆、经纬仪,在峭壁上定点、构图。塞外常常是狂风怒号,黄沙满天,一不小心就有坠入深谷的危险。詹天佑不管条件怎样恶劣,始终坚持在野外工作。白天,他攀山越岭,勘测线路;晚上,他就在油灯下绘图,计算。为了寻找一条合适的线路,他还常常请教当地的农民。遇到困难,他总是想:这是中国人自己修筑的第一条铁路,一定要把它修好。否则,不但那些外国人要讥笑我们,而且会使中国工程师失掉信心。1905年至1909年,在詹天佑的带领下建设了第一条中国自主设计和建造的铁路——京张铁路,创设了“竖井开凿法”和“人”字形线路,这一创造性的成就,震惊中外。

案例:爱迪生发明电灯
【思政元素引入位置】讲完【实例4:APP行为数据预处理】小节后
【说明】本实例展示了如何使用pandas对APP行为数据集进行清洗,以便用于后续的数据分析环节。整个环节包括:收集数据集,进行探索性数据分析和对数据进行预处理。所有的环节我们需要知其原理,也需要动手实操,方能掌握数据清洗的应用。俗话说,“看花容易绣花难”,任何事情我们不仅要懂,也要实践,实践是检验真理的唯一标准。就像伟大的科学家爱迪生一样,在不断的科学实践中发明了电灯。
爱迪生12岁时,便沉迷于科学实验之中,经过自己孜孜不倦地自学和实验,16岁那年,便发明了每小时拍发一个信号的自动电报机。后来,又接连发明了自动数票机,第一架实用打字机、二重与四重电报机,自动电话机和留声机等。有了这些发明成果的爱迪生并不满足,1878年9月,爱迪生决定向电力照明这个堡垒发起进攻。他翻阅了大量的有关电力照明的书籍,决心制造出价钱便宜,经久耐用,而且安全方便的电灯。

所以,不管我们是学习还是研究,一定要笃信躬行。信书不如无书,要把知识和经验有机结合起来,通过实践印证知识,根据实践需要去积极地获取真正的知识。