设置主页 加入收藏 保存到桌面
当前位置首页论文计算机论文简化多核支持向量机的研究

简化多核支持向量机的研究

读心狂医围观:℉更新时间:2021-12-18 11:39:49

简化多核支持向量机的研究

1引言

核方法自被提出以来就备受关注,尤其是基于统计学习理论的支持向量机,它克服了传统机器学习方法泛化能力低,全局性差的缺点⑴。过去几年,支持向量机已经广泛用于分类和回归问题的处理,如图像识别、文本分类和入侵检测等多个领域。

随着信息技术的发展,当前需要处理的问题数据规模逐步变得更加复杂,而注重小样本统计规律的支持向量机已不足以应对复杂的数据特征集。为了解决这个问题,多核学习的概念被提了出来,多核主要是指支持向量机中的多核函数。在多核学习中,使用不同的核函数处理不同的特征集合,这样使得多核学习针对异构多源数据集具有更好的泛化能力和更高的预测准确率。但是由于多特征集合多核函数的引入使得支持向量机的高空间需求和高时间需求的缺点更为突出。因为多核支持向量机需要更多的空间存储多特征集的核矩阵,需要更多时间求解多核函数的权系数,所以在优化多核学习的效率方面还有很大的研究空间。

1.1研究背景

近二十年来,机器学习一直是众多学者关注的热门领域,机器学习是指研究如何让计算机模拟或实现人类的认知能力,并通过学习能力获取新的知识,完善自身的知识结构以不断提高自身的性能。机器学习是人工智能的进一步发展,同时也是人工智能未来的发展方向。机器学习主要包括三个方面的问题:模式识别、回归分析和概率密度统计。机器学习发展至今,已广泛应用于各个领域,如模式识别、自然语言处理、专家系统和入侵检测等。

机器学习方法推广能力是指机器学习方法不仅能够解释已知数据,而且还能够对未知数据做出正确的预测,机器学习方法学习能力的评价方式便是推广能力,它代表了机器学习模型对未知数据的预测准确率的高低。早期机器学习的理论基础之一是传统统计学,基于样本数量趋于无穷大时的渐进理论。但在实际问题中,训练样本数量往往不足,导致传统机器学习方法推广能力较差,很难取得理想的学习效果。上世纪90年代,Vapni提出了着重研究小样本学习规律的统计学习理论,该理论是研究在有限信息条件下寻找最优结果,并达到快速收验。该理论不但为解决有限样本的学习问题创立了一个统一的框架,还将很多现有机器学习方法融入其中,它解决了许多固有的难题。

1.2论文主要工作

基于上述背景和存在问题,本文的工作主要包括以下几个方面:

(1)简易介绍了机器学习的相关知识及研究现状;

(2)简易介绍了支持向量机的基本原理和算法思想;

(3)较为全面的介绍了多核支持向量机的基本原理及形式,并介绍了多核支持向量机算法的分类及各种改进算法;

(4)介绍了协同聚类算法的基本原理及其与多核支持向量机的结合应用,提出了基于协同聚类的简化多核支持向量机算法,进行了实验验证,同时,进一步将该思路拓展到多种改进多核支持向量机算法上,并对多种多核支持向量机算法简化效果进行了实验对比验证;

(5)进一步改善了协同聚类方法,利用其结果数据均衡的特点,将其应用于处理多核多类问题,提出了简化多类多核支持向量机;

(6)总结本文研究成果及不足之处,并对下一步研究提出改进思路。

本文分析了多核支持向量机学习效率低下的原因,并使用协同聚类的思想对其进行优化,简化了多核支持向量机,提高了其学习效率。同时还利用协同聚类能够改善数据不均衡的优点,将基于协同聚类的简化多核支持向量机用于处理多类问题。最后通过多组实验验证,证实了使用协同聚类优化多核支持向量机学习效率和处理多类问题的可行性。

本文章节内容安排如下:

第1章介绍课题研究背景,简易介绍基于统计学习理论的支持向量机以及当前研究热点多核支持向量机的研究进展,提出了本文研究的内容和意义。

第2章简易介绍了支持向量机的理论基础、原理和存在问题。

第3章介绍了多核支持向量机产生背景、发展状况和基本原理,给出了当前多核支持向量机的集中形式及常见的几种多核支持向量机算法。

第4章介绍了协同聚类算法的基本思想,提出了基于协同聚类的简化多核支持向量机算法,并进行了实验验证;并进一步将该方法拓展到多种改进多核支持向量机算法上,并用实验证明了该思路的可行性。

第5章进一步改善了协同聚类方法,将其应用到处理多类问题,提出了简化多类多核支持向量机思路,并进行了实验验证。

第6章总结全文,对本文研究内容做总结分析,分析本文算法的不足,并给出了未来的研究方向和内容。

2支持向量机

支持向量机自20世纪90年代由Vapni提出以来得到了迅速的发展。它以统计学习理论问基础,是借助最优化方法解决机器学习中分类问题的有效工具。核函数的引入使它更易于处理非线性分类问题,并克服了传统机器学习算法易发生局部最优、过学习和维度灾难;的问题。支持向量机已经成功的应用于文本分类、模式识别和入侵检测等领域。

2.1支持向量机理论基础

支持向量机是建立在统计学习理论基础之上的机器学习方法,对处理分类问题和回归问题具有良好的效果。统计学习理论本质是对小样本数据进行统计估计及预测的理论,VC维和结构化风险最小化原则是支持向量机的统计学理论基础⑴。

结构化风险最小化原则,是指在保证分类准确率(经验风险)的同时,尽量降低机器学习的VC维,以使得学习机在整个训练集上的期望风险得到控制。在样本数量有限时,传统机器学习方法采用的经验风险最小化原则是不合理的,为了对未知样本具有较好的推广能力,机器学习应该同时最小化经验风险和置信范围,以取得实际风险最小化,这种思想称为结构化风险最小化,即准则。

支持向量机以统计学习理论为基础,在针对学习样本有限的情况下的,釆用结构风险最小化原则同时对经验风险和学习机的复杂度进行控制,可以有效地避免过学习现象的产生,还能够获得比传统机器学习方法更优的泛化能力。

2.2支持向量机原理

支持向量机的原理是在给定的正负两类数据中寻找一个最优超平面,使这个超平面能最大化分割正负两类数据,如下图2-1所示:

在上图中,假设为最优超平面,H1和H2是平行于H的两个支持平面(由支持向量决定),margin是两个支持平面的距离,为了更好地划分两类数据,需要找到一个最大化的margin以确保超平面H将两类数据进行最优划分。

3多核支持向量机...............13

3.1多核学习的发展背景...........13

3.2多核支持向量机及其形式.......14

4基于协同聚类的简化多核支持向量机........26

4.1聚类算法..............26

4.2聚类分析及相关概念.........26

5简化多类多核支持向量机.........46

5.1支持向量机处理多类问题..............46

5简化多类多核支持向量机

传统支持向量机处理的都是二分类问题,多核支持向量机也不例外,而现实中处理的机器学习问题往往比较复杂,常为多类问题。多核支持向量机在处理多类问题时基本思路是将其转化为多个二分类问题处理,而常用的转化方法后常会带来负面影响,从而影响最终算法的预测准确率和算法性能。本章将尝试使用基于改进协同聚类方法的简化多核支持向量机来处理多类问题,以得到更好的算法性能。

5.1支持向量机处理多类问题

实际的机器学习问题常为多类问题,而非支持向量机易于处理的二分类问题。为了便于支持向量机处理,常有两种方案,一种是构建多分类最优化问题,另一种是尝试将多类问题转化为二分类问题。而构建多分类最优化问题由于需要确定的参数较多,所以应用较少。支持向量机处理多类问题常用的方法是将其转化为二分类问题,已有不少研究提出了结合多个二分类模型使用支持向量机处理多类问题。

多核支持向量机以支持向量机为基础学习器,故对于二分类问题仍采用支持向量机常用的策略。而多核支持向量机采用一对多策略处理多类问题时,数据不均衡问题会表现的更加突出,因为多核支持向量机需要处理的数据集往往较为复杂。故多核支持向量机釆用一对多策略处理多类问题会耗费更多的空间和时间,整体效率不高。

6结论

本章将对本文的研究工作进行总结,指出本文中所提出方法的改进之处与不足之处,并提为日后工作提出了改进提议。

6.1研究工作总结

多核支持向量机自被提出以来,众多研究学者对其进行了研究和探索,促进了多核支持向量机在众多领域中的应用。在大数据时代的今天,多核支持向量机所面临问题的数据集规模与日俱增,但多核支持向量机处理大规模数据集效率低下的问题一直没有得到解决,此外多核支持向量机算法处理多分类问题的效果一直也不理想。所以本文针对上述问题进行了详细的探讨,尝试使用基于协同聚类的简化多核支持向量机改善这些问题。众多多核支持向量机的研究资料和成果为本文的研究提供了基础和思路,本文利用协同聚类算法简化训练数据集,以从根本上实现降低多核支持向量机的空间复杂度和时间复杂度的目的。综上所述,本文所做的主要工作如下:

(1)介绍了支持向量机的基本知识和原理,较为详细的介绍了多核支持向量机思想和众多现有算法。

(2)详细介绍了基于协同聚类的简化多核支持向量机的基本原理和算法步骤,并进行了初步实验验证。

(3)将协同聚类应用到多种多核支持向量机算法上,并进行了大量实验对比,证实了使用协同聚类简化多核支持向量机的可行性。

(4)利用协同聚类结果均衡性的优势,使用基于协同聚类简化多核支持向量机处理多类问题,得到了较好的分类效果和算法性能。

多核支持向量机幵启了核方法研究的新篇章,成为众多学者新的研究热点。近几年来,有大量对于多核支持向量机的研究成果涌现出来,其中有众多成果是集中在优化多核支持向量机的求解方式以提高其学习效率,以达到多核支持向量机在处理大规模问题上能取得好的效果,但距离理想的结果仍有一定距离。本文提出的研究思路一定程度上改善了多核支持向量机在处理大规模数据集的效率问题,通过减少无关分类信息点,降低多核支持向量机学习过程中寻找支持向量机的复杂度,从根本上提高了多核支持向量机的学习效率,对促进多核支持向量机的应用具有较为实际的意义。

参考文献(略)