数据库实验室2009级硕士研究生毕业答辩6月2日上午举行

数据库实验室2009级硕士研究生毕业答辩,将安排在6月2日上午举行,地点是海韵行政三号楼410。答辩委员会成员包括吴锦林教授、冯少荣副教授、江弋副教授、张东站副教授等,林子雨助理教授担任答辩秘书工作。
 
论文题目
基于LDA模型的医疗诊断研究
 
答辩人
许珠香(硕士)
 
专业
计算机应用技术
 
导师
江弋
 
时间
2012年6月2日 16:40
 
地点
海韵行政三号楼410
 
论文摘要
中医作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累大量的临床数据和医学文献,这些数据包含宝贵的中医理论知识和规律,利用数据挖掘技术探求中医药诊治疾病的规律,形成用数字描述和表达的中医药内容,将有力推动中医药研究的规范化进程。近年来,研究人员应用聚类分析、关联规则和回归分析等方法研究中医理论,并已取得一定的研究进展,但由于中医药信息的特殊性,对挖掘算法的高效性和鲁棒性有较高的要求,仍难以体现中医语义复杂性特点及中医诊疗系统性特点。
本文利用主题模型研究中医临床诊疗规律,我们不仅认为主题模型能够提取中医临床诊疗数据的语义特征,而且关于主题模型的推理过程与《伤寒论》里所述的“观其脉症,知犯何逆,随证治之”的中医辨证论治过程基本一致,都是从显变量的过程到隐变量的过程再到显变量的过程。实验表明,利用主题模型分析临床诊疗数据能够提取中医诊疗规律,为中医临床研究提供一种新颖的理论方法。
本文主要工作如下:
1)分析并总结了以LDA为代表的主题模型的产生背景、发展过程及LDA模型常用的推理方法。
2)在原来LDA模型基础上,对特征词采用加权机制,从而提高主题间的区分能力和可解释性,同时利用建模后的主题作为特征进行支持向量机分类,提高了分类准确率。
3)利用KL距离和主题间相似度确定LDA主题模型的主题数目。
4)分析主题模型和中医辨证论治的关系,在LDA模型和作者-主题模型的
基础上,提出症状-中药-治法-诊断(Symptoms-Herbs-Therapy-Diagnosis topic ,SHTDT)主题模型,用于自动提取这四者之间的主题结构,探索具有临床意义的多个实体间的关系。同时利用实体间的关联度和特征词加权机制,对SHTDT进行改进,提高了主题分类的准确度。
 
论文题目
基于语义角色标注的句子相似度计算
 
答辩人
黄国位(硕士)
 
专业
计算机技术(专业学位)
 
导师
张东站
 
时间
2012年6月2日 15:30
 
地点
海韵行政三号楼410
 
论文摘要
句子的语义相似度计算,在自然语言处理领域有着非常广泛的应用背景。如基于实例的机器翻译、自动问答系统、自动文摘等。目前,主流的研究主要集中于在句法分析的基础上进行相似度计算。由于该类方法没有充分考虑句子的语义信息,其计算结果往往不太可靠。
语义角色标注(Semantic Role Labeling,SRL)是浅层语义分析的一种实现方式,只标注与句子中谓词有关的成分的语义角色,如施事、受事、时间和地点等,受到了越来越多学者的关注。本文尝试在浅层语义分析的基础上进行相似度计算,提出了一种基于语义角色标注的句子相似度计算方法。
传统的语义角色标注研究没有考虑框架间的语义角色关系,无法直接用于句子的相似度计算。本文对其进行改进,在预处理阶段先对框架进行聚簇,并建立各个框架簇间的语义角色对应关系。在相似度计算阶段,先判断句子所属框架,接着进行语义角色标注,然后根据框架间的语义角色对应关系计算词的语义相似度,进而得到句子相似度。
研究表明,影响语义角色标注系统性能的首要因素是使用的特征,从基于短语结构句法分析以短语为标注单元,到基于依存句法分析以词为标注单元,其系统性能的增长逐渐趋缓,对框架进行聚簇可能是一个改进方向。通过实验证明,在交易域内对比传统的语义角色标注,进行框架聚簇的语义角色标注准确率提高到了90%左右。同时基于语义角色标注的句子相似度计算方法对比基于语义依存的句子相似度计算方法,也取得了更令人满意的实验效果。句子的语义相似度计算,在自然语言处理领域有着非常广泛的应用背景。如基于实例的机器翻译、自动问答系统、自动文摘等。目前,主流的研究主要集中于在句法分析的基础上进行相似度计算。由于该类方法没有充分考虑句子的语义信息,其计算结果往往不太可靠。
语义角色标注(Semantic Role Labeling,SRL)是浅层语义分析的一种实现方式,只标注与句子中谓词有关的成分的语义角色,如施事、受事、时间和地点等,受到了越来越多学者的关注。本文尝试在浅层语义分析的基础上进行相似度计算,提出了一种基于语义角色标注的句子相似度计算方法。
传统的语义角色标注研究没有考虑框架间的语义角色关系,无法直接用于句子的相似度计算。本文对其进行改进,在预处理阶段先对框架进行聚簇,并建立各个框架簇间的语义角色对应关系。在相似度计算阶段,先判断句子所属框架,接着进行语义角色标注,然后根据框架间的语义角色对应关系计算词的语义相似度,进而得到句子相似度。
研究表明,影响语义角色标注系统性能的首要因素是使用的特征,从基于短语结构句法分析以短语为标注单元,到基于依存句法分析以词为标注单元,其系统性能的增长逐渐趋缓,对框架进行聚簇可能是一个改进方向。通过实验证明,在交易域内对比传统的语义角色标注,进行框架聚簇的语义角色标注准确率提高到了90%左右。同时基于语义角色标注的句子相似度计算方法对比基于语义依存的句子相似度计算方法,也取得了更令人满意的实验效果。
 
论文题目
基于视觉分块及多特征的web信息抽取
 
答辩人
郑艳红(硕士)
 
专业
计算机应用技术
 
导师
张东站
 
时间
2012年6月2日 14:40
 
地点
海韵行政三号楼410
 
论文摘要
随着信息社会的快速发展,web数据已经发展成为一种巨大的信息资源。Web信息抽取作为一种从web数据中抽取主题信息的研究内容,是数据分类、自然语言处理等研究领域的基础。因此,如何准确快速的从海量的web数据中抽取关注的信息变得越来越重要。本文对web信息抽取的方法进行了的研究,并针对研究过程中遇到的问题,提出相应的解决方法。本文的主要研究内容如下:
(1)对已存在的各种web信息抽取算法做出了详细的研究比较。
(2)本文的主要目的是对具有主题信息的主题型网页进行正文抽取,而对于链接型网页不予处理。因此对于输入的一个网址,要先判断其网页类型。本文对两种网页进行了详细的比较,提炼出五个明显的特征,并提出一种基于多特征的网页类型划分方法。该方法利用遗传算法对数据集进行训练求得各个特征的权重,再通过计算网页各个特征的加权和来判断它的类型。
(3)网页类型判断完成之后,对主题型网页进行正文抽取工作。本文对微软亚洲研究院所提出的基于视觉的分块算法VIPS算法进行了改进,提出了nVIPS算法,并在此基础上提出新的算法对正文标题、正文发表时间、正文内容进行抽取。
(4)对网易、腾讯、人民网等八大网站共800篇文章进行抽取实验。并在相同数据集和运行环境下实现了基于多特征的正文抽取算法以及VIPS算法。通过实验结果对比证明,该方法是快速有效的。
 
论文题目
基于WAP树栈Web用户浏览模式挖掘
 
答辩人
饶丽丽(硕士)
 
专业
计算机软件与理论
 
导师
张东站
 
时间
2012年6月2日 14:00
 
地点
海韵行政三号楼410
 
论文摘要
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web用户浏览模式挖掘是Web挖掘的一个重要研究方向。Web用户浏览模式挖掘是通过对Web站点服务器日志进行分析,挖掘其中隐藏的频繁模式,为用户提供个性化服务、信息导航,并为网站结构的改进和优化提供依据。本文基于WAP树和栈进行Web用户浏览模式挖掘,克服了传统算法需要创建大量子树的缺陷,时间效率有了很大地提高。
本文的研究内容主要有Web数据源采集和预处理、Web用户聚类和Web用户频繁浏览模式的发现与分析。首先,数据预处理包括数据清理、用户识别、会话识别、路径补充、事务识别五个阶段。其次,Web用户聚类是把浏览路径相似的用户聚成一类,在聚类的相似度量上,不再单纯地以访问次数或相同路径浏览时间来度量,而是考虑用户之间相同路径部分相似性和非相同路径部分相似性,从而引出相似兴趣度和非相似兴趣度两个度量值,并把这种相似度计算方法称为PIS相似度,再结合该相似度进行基于传递闭包的模糊聚类。最后,Web用户频繁浏览模式的发现与分析是根据Web用户聚类的结果,挖掘用户类的所有频繁浏览模式,再进行模式分析。传统频繁模式挖掘算法普遍有一个缺点:大量候选项的产生或频繁地创建树结构,因此大大降低了算法效率。为此,本文提出一种WSF-Mine算法,该算法结合了不连续但可重复页面序列挖掘的WAP算法和连续但不可重复页面序列挖掘的CAP算法,可以挖掘连续且可重复页面序列的频繁模式,克服了WAP算法和CAP算法的不足之处,而且除了WAP树以外,不需要创建任何一棵子树,只利用栈和频繁模式挖掘的性质即可挖掘出用户的所有频繁浏览路径。
通过实验分析,基于PIS相似度的模糊聚类结果质量有很大提高,从而提高了在聚类结果质量基础上进行模式挖掘的WSF-Mine算法效率。另外,理论和实验证明,WSF-Mine算法比CAP和OB-Mine算法的效率均有一定的提高。本文在相似度计算和频繁模式挖掘上均有提出改进算法,因此在Web用户浏览模式挖掘研究领域具有一定的参考价值。
 
论文题目
动态XML编码技术研究
 
答辩人
庄灿伟(硕士)
 
专业
计算机软件与理论
 
导师
冯少荣
 
时间
2012年6月2日 08:00
 
地点
海韵行政三号楼410
 
论文摘要
随着网络应用的快速发展,XML(eXtensible Markup Language)数据正成为主流的数据形式,如何对XML数据建立有效索引进而实现高效查询是当前的研究热点。大部分XML相关索引和查询技术基于某种对XML树的编码方法。XML编码方法保存了文档树的结构信息,使得在执行查询时不必遍历整个XML文档。传统的区间编码方法和前缀编码方法支持XML节点间位置关系和结构关系计算,但是不能有效处理文档更新,一旦更新发生,整个树需要重新编码,系统代价高。为解决该问题,研究人员提出了动态XML编码方法,包括浮点数区间、CDBS(Compact Dynamic Binary String)、QED(Dynamic Quaternary Encoding)以及DDE(Dynamic Dewey)等。动态XML编码方法一定程度上避免了文档更新时的重新编码,但仍存在时空开销大、对倾斜插入敏感、不能重用已删编码等问题。本文研究集中于动态XML编码机制的性能优化。
首先,XML文档更新涉及节点插入和删除,当在删除位置插入新节点时,如果新节点能够对已删编码进行重用,则可以控制编码长度的增长速度,提高查询性能。CDBS和QED的编码重用已经有相关研究,而对于DDE编码,却是一个难点。基于Stern-Brocot树,提出了DDE编码的改进方法——IDD(Improved DDE)。IDD将最短位长中间编码赋予新节点,能够对已删编码进行重用,有效控制了删除和操作都发生的更新环境下DDE编码位长,提高了XML频繁更新时的编码效率和查询性能。
此外,针对已有动态区间编码方法普遍存在的初始编码空间复杂度高,倾斜插入编码长度增长迅速等问题,本文提出了新的适用于XML文档更新环境下的区间编码方法——DCLS(Dynamic Containment Labeling Scheme)。DCLS利用整数进行初始编码,具有计算简单,额外空间复杂度低、存储效率和查询性能高等优点;同时,DCLS将整数视为特殊向量,不仅支持文档更新,而且更新效率高,特别是倾斜插入时,DCLS可以避免编码位长的快速增加。
实验结果表明,相比于已有动态XML编码方法,IDD和DCLS有更好性能。

 

 

 
论文题目
基于云模型的网络安全研究
 
答辩人
张宏博(硕士)
 
专业
计算机应用技术
 
导师
江弋
 
时间
2012年6月2日 09:20
 
地点
海韵行政三号楼410
 
论文摘要
随着计算机网络的不断发展,人们在受益于网络的同时,网络系统的安全保护问题也越来越突出。现如今网络系统受到的攻击越来越普遍,攻击的手法也越来越复杂,网络安全加密技术例如防火墙、信息加密等技术已远远不能阻止网络上的入侵。因此入侵检测技术也随着相关技术的发展而日渐成熟,成为网络安全的重要防线。入侵检测系统(Intrusion Detection System,IDS)通过对网络或者系统进行实时的监测,及时的发现入侵行为或手段,并通知系统或者用户采取相应的措施,从而保护网络的安全。
云模型反映了人类知识或宇宙事务中概念的两种不确定性:模糊性,即边界的亦此亦彼性,随机性,即事务发生的概率。云模型把模糊性和随机性结合在一起,研究自然语言中最基本的语言值之中所包含的不确定性的普遍规律,云理论模型可以将精确的数值转换为恰当的定性语言值,也可以从语言值表达的定性概念信息中得到定量数据的范围和分布的规律。云模型仅仅需要期望、熵、超熵三个数字特征就可表示定性的概念,极大的简化了数据特征的表达方式,使得数据处理的效率得到提高。文中,将KDDCUP99入侵数据集作为入侵数据,通过云模型的属性空间软划分方法将数值属性转换为定性概念属性。对转换之后的数据进行关联规则挖掘,挖掘出有用的关联规则。实验证明,将这些挖掘出的有用的关联规则应用到入侵检测当中,可以得到较好的检测率和较低的误报率。
人工神经网络(ANN)是人类在对大脑神经网络认识和理解的基础上,人工构造的用来实现特定功能的神经网络,它是模仿大脑中神经元的结构和功能而建立的处理信息的系统,是数学化的人脑神经网络。文中,将KDDCUP99入侵数据集作为入侵数据,将RBF径向基神经网络应用到入侵检测当中,实验表明,可以得到较好的检测率和较低的误报率。

 

 

 

 
论文题目
基于iOS的移动流媒体的网络自适应传输策略的研究
 
答辩人
刘正保(硕士)
 
专业
计算机应用技术
 
导师
江弋
 
时间
2012年6月2日 10:00
 
地点
海韵行政三号楼410
 
论文摘要
移动网络的提速、iOS的兴起和流媒体的崛起促成了移动流媒体的普及。

由于移动网络具有移动性、分布不均、突发性、不确定性等特征,在该网络上传输实时流媒体数据时,如何降低音视频流数据的丢包率和网络抖动成为当前的研究热点,这也是本文的研究方向。

目前,网络自适应传输策略有基于多缓冲区调度的自适应传输策略和基于发送时延预测模型的自适应策略。前者是在研究多缓冲区的基础上,对旧数据采取一定策略的丢弃,从而降低流数据的等待时延的策略。而后者是基于预测模型,及时调整流数据的发送速率,从而降低网络发送时延策略。以上两种策略虽能降低时延,但每种策略只能降低等待时延或发送时延的问题,因此存在一定的不足。

本文是吸收以上两种策略的思想,提出将流量控制算法和缓冲区控制算法相结合的策略,同时降低等待时延和发送时延。流量控制算法是一种以网络传输丢包率和抖动值为参考因子,以流媒体发送端的自适应控制发送速率为目标,建立变数增加乘减少的流媒体流量控制的算法模型,从而降低发送时延,最大限度的提高网络吞吐量。而多缓冲区控制算法,以流数据的时间戳为依据,及时丢弃缓冲区中超时的旧数据,从而降低了等待时延,保证发送流媒体数据的实时性和有效性。

同时,本文建立基于iOS的移动流媒体平台,对本文的策略的算法与普通策略算法[30]进行实验数据对比和分析,以实际终端效果显示方式给出视觉对比。

 

 

 

 

论文题目
基于条件随机场的中文文本情感分析研究
 
答辩人
徐超(硕士)
 
专业
计算机软件与理论
 
导师
张东站
 
时间
2012年6月2日 10:40
 
地点
海韵行政三号楼410
 
论文摘要
伴随着互联网的发展以及新的网络应用的出现,互联网用户由单纯的“读”网页,向“读、写”网页,共同建设互联网发展,由此网上产生了大量带有用户主观感情的数据,从这些带有主观感情的海量数据中挖掘出网络用户的观点在现实生活中具有很大的意义,在这种背景下文本情感分析(sentiment analysis)技术应运而生。
文本情感分析近年来成为一个新的研究热点。根据研究的粒度大小不同,文本情感分析可分为词汇级、句子级以及文档级,然而句子级以及文档级的情感分析往往以词汇级的为基础。目前对于词汇级的情感分析研究有基于规则的方法和基于机器学习方法,针对中文文本词汇级情感分析大部分使用基于规则的方法。基于规则的方法,通常具有较高的准确率,但召回率很差,为此本文对此进行了深入的研究,提出了改进的情感词汇识别和词汇褒贬性判断的算法,完成了一个评论文摘自动生成系统。
首先,针对基于规则的情感词汇自动识别算法的不足,提出了基于条件随机场的情感词汇识别算法,该方法将情感词汇识别当成序列标注任务,并给出了标注集、特征模板以及特征验证与特征筛选的方法。实验结果验证了基于条件随机场的情感词汇自动识别算法的有效性。
其次,针对传统基于词汇相似度的词汇褒贬性自动识别算法的不足,本文提出了一种改进的基于词汇相似度的褒贬性自动识别算法。该算法以基于聚类的褒贬基准词选择算法为基础,基于词群的概念克服了词汇间相似性与词汇间褒贬倾向不一致对词汇褒贬性计算的影响。实验结果表明,该方法在准确性方面优于传统基于词汇相似度的词汇褒贬性计算算法。
最后,给出了一种评论文摘自动生成的方法,该方法基于评价搭配抽取,评价短语极性判断以及评价对象聚类。实验结果验证了该方法的可行性。