林子雨科研介绍

林子雨研究成果和相关资料(2003年至今)

闪存数据库 关系数据库中的关键词查询 云数据库
实时主动数据仓库 时间序列数据挖掘  

林子雨研究领域介绍(2003年至今)

林子雨研究领域一:闪存数据库

林子雨在闪存数据库领域的研究成果和相关资料请点击这里查看

1、闪存数据库的研究背景和意义

在过去的几十年里,硬盘一直都是企业广泛采用的存储介质。但是,随着闪存技术的不断发展,基于闪存的存储设备被认为具有很大的潜力可以取代硬盘,并为企业的各种应用获得更高的性能。闪存具有速度快、体积小、质量轻、能耗低、抗震等特点,而且是非易失的,即使断电也不会丢失信息。由于闪存的优良特性,它已经广泛应用于消费类电子产品中,比如PDA、MP3播放器、移动电话和数码相机等。闪存芯片还被封装成不同的产品,比如CF卡、SD卡、迷你SD卡、微型SD卡和USB棒,或者有些闪存芯片会被封装成闪存存储设备(比如基于闪存的固态盘),配备了标准的ATA总线,可以连接到其他宿主设备上面。市场上也已经出现一些新型的个人计算机产品,完全抛弃了硬盘,转而采用基于闪存的固态盘。

闪存被认为具有很大潜力可以取代硬盘,主要有以下几个方面的原因:(1)硬盘自身的局限性;(2)闪存的优良特性;(3)闪存的容量增加和价格下降。

数据库是企业构建各种高级应用的基础,经过多年的发展,市场上已经存在可以满足不同企业应用需求的各种数据库产品。当前的数据库产品大都采用基于硬盘的存储系统。随着闪存技术的发展,一些存储系统制造商,开始提供TB级别的、基于闪存的存储解决方案,其中一个主要目的就是应用于大规模数据库服务器。另外,随着闪存容量的不断提高,在移动设备中使用嵌入式DBMS已经变得越来越普遍,可以用来高效地对设备中的文件进行存储、检索和导航。

但是,由于闪存的读写特性和硬盘具有很大的区别,如果直接把传统的数据库应用到基于闪存的存储设备上,是无法获得好的性能的。虽然在实际应用中,硬件都是隐藏在接口后面,比如SCSI协议或块设备API,但是,在过去三十年里,数据库应用都是为硬盘这类旋转磁盘设备而优化的,这类旋转设备的特点是:具有固定的顺序带宽,但是,具有很大的机械延迟,它严重影响了随机I/O的性能。数据库系统被认为是专门为硬盘量身定制的一种非常典型的应用,从查询优化到SQL操作,再到底层的磁盘管理,都假设底层存储采用了具有较长随机访问延迟的旋转磁盘设备。比如,对于基于硬盘行为而设计的查询优化器而言,它所做出的查询优化决定,可能很不适合用在闪存上。因此,数据库自身的特性和闪存的特性,决定了必须开展相关的研究,使得数据库应用在闪存存储设备上能够取得好的性能。

温馨提示:关于闪存数据库领域的研究,林子雨会撰写一篇综述论文。

林子雨在闪存数据库领域的研究成果和相关资料请点击这里查看

 

 

林子雨研究领域二:关系数据库中的关键词查询

林子雨在关系数据库的关键词查询领域的研究成果和相关资料【请点击这里查看】

1、基于关系数据库的关键词查询的研究背景和意义

数据库(database,简称DB)已经广泛地应用于人们的生产和生活,它可以高效地支持结构化数据的存储和查询.关系数据库是当前数据库的主流形式,它采用结构化查询语言进行内容检索,并要求用户掌握一定的查询语言和数据库模式知识.与此相反,目前蓬勃发展的互联网中的信息检索(information retrieval,简称IR)则采用了另一种完全不同的、属于IR风格的内容检索方式,即关键词查询(查询通常是数据库的专用术语,但是和大多数其他研究一样,本文将混用查询和搜索这两个术语).在这种查询方式中,只要用户输入关键词,网页就会为用户返回包含该关键词的相关结果.结构化查询支持针对结构化数据的高效检索,并具备了完善的查询优化技术.关键词查询则具有简便易用的特点,支持针对文本文档的快速检索.二者在各自的应用领域都取得了极大的成功.

随着互联网的发展,越来越多的普通用户需要访问在线数据库,这些用户通常不具备查询语言和数据库模式知识.与此同时,关系数据库里存储了越来越多的文本数据,企业需要实现文本数据和结构化数据的无缝集成.由此就产生了一个很自然的需求,即让关系数据库支持高效的关键词查询.目前,这个方面的研究已经成为数据库领域比较热门的研究话题,具有广阔的应用前景.通过基于关键词的查询,企业可以建立针对大规模数据的、快速便捷的信息发布和搜索方式,让企业用户无技术障碍地访问企业内部各种关系型数据,帮助企业更好地利用数据产生价值.

2、基于关系数据库的关键词查询问题概述

关系数据库通常使用SQL(structured query language)语言进行结构化查询,用户需要在SQL语句中指定要查询的列,系统会把该列的内容与查询的关键词进行匹配,并最终返回结果.下面我们介绍一个关于结构化查询的实例.
如图1所示,数据库中包含4个表,分别是Author ,Paper,Citation和Paper-Author.其中:Author表记录了作者的标识(AID)和姓名(name) ;Paper表记录了论文的标识(PID)和标题(title );Paper-Author表记录了论文(PID)和作者(AID)之间的对应关系,PID和AID都是外键,分别引用了Paper表的PID属性和Author表的AID属性;Citation表记录了引用论文(cite )和被引用论文(cited )之间的对应关系,Cite和Cited也都是外键,都引用了Paper表的PID属性.

图1 一个数据库实例

下面是一个采用SQL语句书写的结构化查询:

SELECT*FROM Paper P

WHERE CONTAINS (P.title,‘database’,1)>0

ORDER BY score(1) DESC

如果在ORACLE 9.1上执行这个查询,系统会访问Paper表中的行,并使用关键词“database”在Title字段上进行匹配,然后根据积分对匹配结果进行排序,最终返回结果.很显然,这个过程需要查询指定某些列进行关键词匹配.从普通用户角度而言,这种方法不仅显得复杂,而且灵活性不强.因为在某些时候,可能需要对多个表进行连接操作才能得到结果,让用户自己去了解每个表和列的作用是比较困难的.比如,如果我们要查询包含关键词“keyword search by Jack”的记录,那么就需要对Paper表、Author表和PaperAuthor表进行连接操作,才能得到查询结果.

很显然,由上面的例子我们可以得知,如果想要利用结构化查询从关系数据库中获得满意的结果,就需要用户熟悉结构化查询语言以及数据库模式的知识,这对大多数普通用户而言都是一件比较困难的事情.与此相反,关键词查询则不需要用户了解这些专业化的知识,用户只需要给出一个关键词集合K={k1,k2,…,km},系统就会返回包含关键词的查询结果.这种方法简单易用,在互联网世界中表现出了强大的生命力,获得了用户的广泛认可.因此,在用户越来越需要在线访问关系数据库的今天,结构化查询已经不能很好地满足用户的要求,在关系数据库中引入关键词查询具有其必要性和重要性.

3、困难与挑战

IR的目标是,从文本数据库中寻找与给定关键词相关的文档.而对于基于关系数据库的关键词查询而言,目标就不仅仅是寻找包含给定关键词的相关文档或文档片段,而是要发现关键词之间的语义关系.这是由关系数据库不同于文本数据库的特点所决定的,也正是由于二者的区别,导致了关系数据库和关键词查询技术的集成会面临以下主要挑战:

(1) 如何发现关键词之间的语义关系:满足用户要求的答案并不只是来自单个元组,很可能是由来自多个表的多个元组的连接得到的,这些元组构成一个元组连接树(参见本文第2.2.2.2节定义9),这棵树描述了关键词之间的语义关系.但是,在关系数据库中寻找这些元组连接树并不容易.由于数据库的规范化,信息的逻辑单元可能被分片存储到不同的物理表当中.对于一个给定的关键词集合,可能需要对多个关系表进行即席连接操作才能得到匹配的行集,即包含关键词的元组连接树.仅从这一点而言,基于关系数据库的关键词查询和基于文档的关键词查询就存在很大的不同,前者在搜索时每次要处理一个或多个表中的多个属性,而后者在搜索时每次只需要处理一个文档.因此,我们不能把文档搜索中的成熟技术直接移植到关系数据库中.由于搜索结果来自关系数据库的多个元组,一个结果反映了不同元组之间的相互关联,因此,文献[6]把这种问题称为“结构化关键词查询”,而把数据库自身提供的针对单文本属性的搜索,称为“全文关键词查询”;

(2) 如何得到最相关的结果:一个用户查询的结果可能包含了大量元组连接树,为了评估它们与给定查询的相关性,就需要为每个元组连接树单独评分,这些评分可以把最相关的结果排在尽可能高的位置.在文本数据库当中,用户搜索的基本信息单元是文档,对于一个关键词查询,IR系统为每个文档计算一个评分,然后根据评分对文档进行排序,排在最前面的文档就会作为结果返回给用户.但是在关系数据库当中,信息的存储形式是表和列,以及主外键关联.用户所需答案的逻辑单元,不仅仅局限于单个列上的值,或单个元组,它可能是由多个元组连接得到的.因此,就需要为每个元组连接树单独评分;

(3) 如何处理结果中的重复和冗余信息:关系数据库比文本数据库具有更加丰富的结构,容易导致信息重复和冗余问题,系统生成的搜索结果中的重复冗余信息会使用户感到困惑.

挑战可能不止上述几个方面,但是,即使对于以上几个问题,现有的系统中大多数也都只是解决了一部分,尤其是信息冗余问题,只有少数研究提出初步的解决方案.

林子雨在关系数据库的关键词查询领域的研究成果和相关资料【请点击这里查看】

 

林子雨研究领域三:云数据库

林子雨在云数据库领域的研究成果和相关资料【请点击这里查看】

1、云数据库概念

云数据库是在SaaS(software-as-a-service:软件即服务)成为应用趋势的大背景下发展起来的云计算技术,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时也虚拟化了许多后端功能.云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点.可以说,云数据库是数据库技术的未来发展方向.目前,对于云数据库的概念界定不尽相同,本文采用的云数据库定义是:云数据库是部署和虚拟化在云计算环境中的数据库.

如图1所示,在云数据库应用中,客户端不需要了解云数据库的底层细节,所有的底层硬件都已经被虚拟化,对客户端而言是透明的.它就像在使用一个运行在单一服务器上的数据库一样,非常方便、容易,同时又可以获得理论上近乎无限的存储和处理能力.

图1 云数据库应用示意图

2、云数据库的特性

云数据库具有以下特性:

(1) 动态可扩展:理论上,云数据库具有无限可扩展性,可以满足不断增加的数据存储需求.在面对不断变化的条件时,云数据库可以表现出很好的弹性.例如,对于一个从事产品零售的电子商务公司,会存在季节性或突发性的产品需求变化;或者对于类似Animoto的网络社区站点,可能会经历一个指数级的增长阶段.这时,就可以分配额外的数据库存储资源来处理增加的需求,这个过程只需要几分钟.一旦需求过去以后,就可以立即释放这些资源.

(2) 高可用性:不存在单点失效问题.如果一个节点失效了,剩余的节点就会接管未完成的事务.而且在云数据库中,数据通常是复制的,在地理上也是分布的.诸如Google,Amazon和IBM等大型云计算供应商具有分布在世界范围内的数据中心,通过在不同地理区间内进行数据复制,可以提供高水平的容错能力.例如,Amazon SimpleDB会在不同的区间内进行数据复制,因此,即使整个区域内的云设施发生失效,也能保证数据继续可用.

(3) 较低的使用代价:通常采用多租户(multi-tenancy)的形式,这种共享资源的形式对于用户而言可以节省开销;而且用户采用按需付费的方式使用云计算环境中的各种软、硬件资源,不会产生不必要的资源浪费.另外,云数据库底层存储通常采用大量廉价的商业服务器,这也大幅度降低了用户开销.

(4) 易用性:使用云数据库的用户不必控制运行原始数据库的机器,也不必了解它身在何处.用户只需要一个有效地链接字符串就可以开始使用云数据库.

(5) 大规模并行处理:支持几乎实时的面向用户的应用、科学应用和新类型的商务解决方案.

3、云数据库的影响

云数据库的影响主要体现在以下几个方面:

(1) 极大地改变企业管理数据的方式.Forrester Research分析师Yuhanna指出,18%的企业正在把目光投向云数据库.对于中小企业而言,云数据库可以允许他们在Web上快速搭建各类数据库应用,越来越多的本地数据和服务将逐渐被转移到云中.企业用户在任意地点通过简单的终端设备,就可以对企业数据进行全面的管理.此外,云数据库可以很好地支持企业开展一些短期项目,降低开销,而不需要企业为某个项目单独建立昂贵的数据中心.但是,云数据库的成熟仍然需要一段时间.中小企业会更多地采用云数据库产品,但是对于大企业而言,云数据库并非首选,因为大企业通常自己建造数据中心.

(2) 催生新一代的数据库技术.IDC的数据库分析师Olofson认为,云模型提供了无限的处理能力以及大量的RAM,因此,云模型将会极大地改变数据库的设计方式,将会出现第三代数据库技术.第一代是20世纪70年代的早期关系数据库,第二代是20世纪80年代~90年代的更加先进的关系模型.第三代的数据库技术,要求数据库能够灵活处理各种类型的数据,而不是强制让数据去适应预先定制的数据结构.事实上,从目前云数据库产品中的数据模型设计方式来看,已经有些产品(比如SimpleDB,Hbase,Dynamo,BigTable)放弃传统的行存储方式,而采用键/值存储,从而可以在分布式的云环境中获得更好的性能.可以预期的是,云数据库将会吸引越来越多的学术界的目光,该领域的相关问题也将成为未来一段时间内数据库研究的重点内容,比如云数据库的体系架构和数据模型等等.

(3) 数据库市场份额面临重新分配.在过去的几十年里,数据库市场一直被诸如Teradata,Oracle,IBM DB2, Microsoft SQL Server,Sybase等传统数据库厂商所垄断.随着云数据库的出现和不断发展,市场将面临重新洗牌.首先,Amazon和Google等原本并不从事数据库业务的国际知名企业,也乘着云计算的东风,开发了云中的数据库产品,加入这场新兴市场的角逐.实际上,对于云数据库市场而言,Amazon SimpleDB和Google BigTable这类产品扮演了引领者的角色,传统的数据库厂商已经成为跟进者;其次,一些新的云数据库厂商开始出现,并且推出了具有影响力的产品,比如Vertica的Analytic Database for the Cloud和EnterpriseDB的Postgres Plus in the Cloud.因此,数据库市场份额的重新分配不可避免.

4、云数据库产品

云数据库供应商主要分为3类:

  • 传统的数据库厂商:Teradata,Oracle,IBM DB2和Microsoft SQL Server;
  • 涉足数据库市场的云供应商:Amazon,Google和Yahoo;
  • 新兴小公司:Vertica,LongJump和EnterpriseDB.

就目前阶段而言,虽然一些云数据库产品,如Google BigTable,SimpleDB和HBase,在一定程度上实现了对于海量数据的管理,但是这些系统暂时还不完善,只是云数据库的雏形.让这些系统支持更加丰富的操作以及更加完善的数据管理功能(比如复杂查询和事务处理)以满足更加丰富的应用,仍然需要研究人员的不断努力.

表1给出了目前市场上常见的云数据库产品,对于其中一些主要产品,下面我们会作简要介绍.

1  云数据库产品 

企业

产品

Amazon

Dynamo, SimpleDB, RDS

Google

BigTable, FusionTable

Microsoft

Microsoft SQL Server Data Services或SQL Azure

Oracle

Oracle Cloud

Yahoo!

PNUTS

Vertica

Analytic Database v3.0 for the Cloud

EnerpriseDB

Postgres Plus in the Cloud

开源项目

Hbase, Hypertable

其他

EnerpriseDB, FathomDB, ScaleDB, Objectivity/DB, M/DB:X

 

5、云数据库研究问题 

对于学术界而言,要想在云数据库中提供类似于现有DBMS的丰富功能,比如查询、索引和事务处理,仍然有许多亟待解决的问题.云数据库领域中的研究问题主要包括:云数据库中数据模型设计、编程模型、服务器体系架构设计、事务一致性、基于云数据库的容灾和SLA(service level agreement)监控、云数据的访问控制和授权管理、云应用数据访问体系的调优、云数据生命周期管理、云数据库与本地数据库的协同和联邦设计、测试基准等.

林子雨在云数据库领域的研究成果和相关资料【请点击这里查看】

 

林子雨研究领域四:实时主动数据仓库

林子雨在实时主动数据仓库领域的研究成果和相关资料【请点击这里查看】
 
1、实时主动数据仓库概念

Michaem Haisten提出了实时主动数据仓库的概念:RTADW(Real-time Active Data Warehouses)是一个关系型环境的数据仓库,支持数据的实时更新,快速的响应时间,基于钻取的聚集数据查询能力和动态的交互能力,用于支持不断变化的商业需求。与传统数据仓库系统相比,实时主动数据仓库系统有许多独有的特点(参见表1)。

1. 实时主动数据仓库与传统数据仓库的比较

 

传统数据仓库

实时主动数据仓库

仅支持战略决策

支持战略决策和战术决策

实时性要求不高

要求结果实时返回

数据传输是单向的

数据传输是双向的

返回很难测量的指标

返回日常运营的指标

以天、周以及月为周期获取数据,并做预先聚合计算

只包含明细数据,可以以分钟为周期获取明细数据

中等规模用户数

多用户的并发访问

仅得到高度限制的报表,适用预处理的聚合表或数据集市

灵活的即席查询、数据挖掘

高级用户、分析员和内部用户

操作雇员、呼叫中心和外部用户

 
2、实时主动数据仓库体系架构
 
图1 一种实时主动数据仓库参考架构

如图1所示,一个RTADW系统主要包含四个组成部分:数据源、数据抽取、数据仓库、主动决策部分和前端应用。

数据源除了包含传统的静态部分之外,还包含实时的数据源部分(如数据流等);数据抽取部分包含传统的ETL抽取和实时数据抽取两部分;数据仓库除了存储传统的静态数据之外,还存储实时的数据部分,以及他们之间的周期性的转换和数据的实时合并;主动决策部分主要基于触发器的基础上,利用主动分析规则完成主动的决策分析;前端的展现除了传统展示方法外,还包括一些实时的监控部件(如Dashboard等)。

 
3、实时主动数据仓库的特点和挑战

实时数据的连续集成

为支持实时的战术决策服务,源系统(或称生产系统)产生的实时数据必须在最小化对源系统入侵程度,并保证实时数据一致性和完整性的情况下,被实时高效地集成到数据仓库中。挑战问题是:(1)在保证源系统性能不降低的情况下,对实时数据在源系统的任何变化进行实时的捕获;(2)保证被连续分发数据间次序的一致性和自身的完整性;(3)在保证数据质量要求的前提下,完成实时、高效的数据加载。

实时数据和历史数据的组织与管理

提供RTADW中的实时数据和历史数据的有效的组织与管理策略,使之高效地工作在一种混合的工作负载环境(战略决策和战术决策)中。所要研究的挑战问题:(1)对实时数据和历史数据(指传统数据仓库中存储的数据)进行统一建模,从而对外提供统一的访问视图;(2)研究对实时数据查询所产生的“查询冲突”和“查询不一致性”问题,保证查询处理过程的无阻塞性的和查询结果的一致性;(3)研究实时数据和历史数据的及时信息合并技术,对提交的RTADW的任何查询提供“透明”的一体化服务(4)对负载的管理,使得RTADW系统高效的运行。

主动的服务决策机制

研究RTADW的主动决策服务机制,提供对实时事件进行主动分析和处理的能力。挑战问题包括:(1)研究实时事件的主动捕获机制,具备对外界请求的实时响应能力;(2)研究分析决策过程的自动执行机制,使RTADW系统拥有主动服务的能力。

 
林子雨在实时主动数据仓库领域的研究成果和相关资料【请点击这里查看】

林子雨研究领域五:时间序列数据挖掘

林子雨在时间序列数据挖掘领域的研究成果和相关资料【请点击这里查看】

1、时间序列概念

时间序列是在时间轴方向上记录的一段有限的实数值序列(如图1所示)。在不同的场合下,可能使用不同的名称。有时,我们称它为对象,有时,又称它为序列,而在小波理论研究中,我们又称其为信号。在论述过程中,可能会不加以区别地使用这些名称,但必须明确一点,它们都表示同一个事物,只不过在不同的上下文中以及当我们讨论数据某个方面的性质时,使用某个名称会更贴切。

图1 时间序列S

在日常生活中,在不同的领域中都会产生大量的时间序列数据,我们可以简称为“时序数据”。通过收集、记录和整理这些数据,并配以先进的数据挖掘工具,我们就能够从时间序列中找到很多对现实生活极具价值的一些新东西,进而用来指导我们的工作和生活。目前,在商业领域中,对时间序列研究成果应用较为成功的行业包括医疗、金融、气象等,比如,医生可以通过对脑电图的分析进行病理诊断,股票分析家可以利用股票的历史数据预测股票的未来行情,气象部门也可以通过历年积累的数据进行预报工作。可以这么说,时间序列数据库就象一座价值不可估量的金矿,等待我们人类用智慧去开采它们。

2、时间序列相似搜索

什么是相似搜索(similarity search)?通常数据查询是要找出符合查询的精确数据,相似性搜索与之不同,它是找出与给定查询序列最接近的数据序列。子序列匹配(subsequence matching)是找出与给定序列相似的所有数据序列,而整体序列匹配(whole sequence matching)是找出彼此间相似的时间序列。对金融市场的分析(如股票数据分析)、医疗诊断
分析(如心电图分析)和科学与工程数据库分析(如能量消耗分析)等,时序分析中的相似性搜索大有用武之地。在进行时序数据分析之前,通常需要进行数据变换:从时间域(time
domain)变换到频率域(frequency domain)。“那么为什么需要变换数据呢?”许多信号分析技术需要数据来自频率域。通常,使用独立于数据的变换,其变换矩阵是预先确定的,与输入数据无关。两个常见的独立于数据的变换是离散傅立叶变换(DFT)和离散小波变换(DWT)。由于在时间域中两个信号的距离与频率域中欧氏距离类似,所以DFT 可以出色发挥,在开头几个系数表现突出。通过仅保存DFT 的头几个(即最强的)系数,可以计算出实际距离的下界。
“一旦数据经过变换,比如DFT,如何进行相似搜索?”为提高访问效率,可以用头几个傅立叶系数构造一个多维索引。当相似查询提交给系统,可以利用索引检索出与查询序列保持一定最小距离的序列。通过计算时间域序列和未满足查询的序列间的实际距离,可以进行必要的后处理(postprocessing)。
“子序列如何进行匹配呢?”对子序列匹配,每一序列首先被分割为等长度的窗口片段。每个序列映射为特征空间中的一个“线索(trail)”。对子序列分析,把每个序列的线索划分为“子线索(subtrail)”,每一个由最小边界矩形表示。利用多片组装算法( multipiece assemblyalgorithm)可以搜索更长的匹配序列。

那么是否存在高效的搜索方法呢?为在大型数据库中改进相似搜索的效率,人们提出了各种索引方法,我们在文章的后面将做粗略的介绍。那么如何才能给出相似搜索的请求呢?设计和开发功能强大的查询语言,以利时间序列的相似查询说明,是一件非常重要的事情。时间序列查询语言应该不仅能够描述简单的相似查询,如“找出与给定子序列Q 相似的所有序列”,而且还能够描述复杂的查询,如“找出与类A 中某序列相似,但与类B 中的任一序列不相似的所有序列”。而且,它应该能够支持各种类型的查询,如范围查询(range query)、所有对查询(all-pair query)和最临近查询(nearest neighbor query)等。

3、时间序列延迟相关性分析

时间序列的延迟相关性是时间序列数据挖掘领域的一个重要研究问题。简单地说,对于两个时间序列X={xi|i=0,…,n-1}和Y={yj|j=0,…,n-1},二者的延迟相关是指,X和Y的相关性系数最大值并不发生在i=0的位置,而是i=l(l≠0)的位置,l就是延迟的大小。在实际应用中,有很多情形涉及到延迟相关问题:

(1)股市分析:在股票市场上存在着多只股票,一种股票(尤其是权重股)的价格走势,常常会影响到其他股票的行情,但是,这种相关性往往不会立即表现出来,可能会存在一个延迟。如果采用时间序列延迟相关性分析技术对不同股票的实时行情进行跟踪,及时发现不同股票之间可能存在的延迟相关性,那么就可以为后续投资策略的制定提供有价值的辅助信息。
(2)气候预测:大气环流使得发生在一个地方的气候情况会在不远的将来给另一个地方带来影响。覆盖全球的气象监测网络可以实时记录世界各地的气象信息,比如温度、湿度等。利用这些时间序列数据进行延迟相关分析,就可以让气象工作者在某地发生恶劣天气的时候,及时预测评估它对其他地域的后续影响。

林子雨在时间序列数据挖掘领域的研究成果和相关资料【请点击这里查看】