数据库实验室林子雨老师团队2013—2014学年秋季学期
第3次小组讨论会会议纪要
会议时间:2013年10月20日(星期日)上午9点到12点
会议地点:厦门大学海韵园科研二号楼303室
与会者:林子雨、刘颖杰、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文
会议纪要:叶林宝
会议内容:
厦门大学计算机系数据库实验室林子雨老师小组2013-2014学年第一学期第三次小组会议在2013年10月20日举行,在本次讨论会上,首先由刘颖杰同学讲解《Architecture of DBMS》中的第1章和第2章,随后由叶林宝同学讲解《Dremel: Interactive Analysis of Web-Scale Datasets》。
- 刘颖杰同学作汇报论文《Architecture of DBMS》第1、2章
刘颖杰同学此次的报告讲解了论文《Architecture of DBMS》前两章。首先,刘颖杰同学介绍了DBMS系统的几大主要部件,并概述其功能;然后介绍了DBMS系统在进程模型方面的一些设计思想。
论文要点:
(1)DBMS系统在功能上大致分为:客户端通信管理器,查询处理器,存储管理器,进程管理器以及一些其他组件。客户端通信管理器主要负责DBMS与客户端的通信,查询处理器负责编译优化sql语句,存储管理器实现数据存储等功能,进程管理器则实现用户进程调度。
(2)对于多用户的DBMS系统,进程的管理与调度十分重要,文章介绍了Process per DBMS Worker,Thread per DBMS Worker, Process Pool三种进程模型,并针对资源共享、调度、开发难易度的问题分别讲述了它们各自的优缺点;然后介绍了Admission Control组件在维护服务器高效运作方面所发挥的作用及其基本原理。
2. 叶林宝同学介绍Google Gremel。
Dremel是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列状数据结构,它能做到几秒内完成对万亿张表的聚合查询。《Dremel: Interactive Analysis of Web-Scale Datasets》涉及的内容有:Gremel的应用背景(大规模的数据分析)、Gremel的特点、Gremel的数据模型(包括列式存储结构、repetition level和definition level、行式数据与列式数据的相互转化等)、Gremel的查询语言、QUERY的执行。
(1)大规模数据分析:
数据规模庞大、对大规模数据的分析要求并行能力高、互联网和科学计算中的数据经常是没有关联的,这三点进行大规模数据分析要解决的三大难题。
(2)Dremel的特点
A. Gremel是大规模的、稳定的系统
B. Gremel作为MapReduce交互能力不足的一个补充
C. Gremel处理的数据模型是嵌套形式的
D. Gremel的数据是用列式存储的
E. Gremel结合了Web搜索技术和并行DBMS技术
(3)Gremel处理的数据模型可以简单表示为:π = dom | <A1 : π[*|?],…,An : π[*|?]> 。嵌套数据模型为Google的序列化、结构化数据奠定了一个平台无关的可扩展机制。
(4)如何高效的在行式存储结构和列式存储结构之间作转换是Gremel要解决的首要问题。(具体内容待下回讲解)
注:讨论会结束后,师生7人一起聚餐,吃美味水煮活鱼。