设置主页 加入收藏 保存到桌面
当前位置首页论文计算机论文基于改进型特征选择算法的文本分类方法之计算机研究

基于改进型特征选择算法的文本分类方法之计算机研究

我欲逍遥围观:℉更新时间:2021-12-18 13:45:58

基于改进型特征选择算法的文本分类方法之计算机研究

这是一篇计算机论文,本文以提高文本分类精度为研究目标,对特征选择与特征加权两个问题进行深入研究。上述两个问题是文本分类的两个阶段,具有十分紧密的联系。

第一章 绪论

1.1 研究背景及意义

随着互联网技术的快速发展,广大用户既可以方便获取互联网上的信息资源,同时也可以将信息发布至互联网上,即用户同时是信息发布与接收的载体。截至 2021 年 1 月 31日,中国互联网络信息中心(CNNIC)发布的 41 次《中国互联网络发展状况统计报告》中指出,我国网民规模达 7.72 亿,普及率达到 55.8%;移动端,手机网民规模达 7.53 亿,比2021 年提升 2%。由于互联网用户数量迅速增加,使得网上资源呈指数式增长。下图为CNNIC 统计的近十年中国网民数量的增长折线图。

面对如此庞大的信息资源,互联网上伴随产生了大量的不良信息,例如邮箱中充斥着大量无意义甚至恶意邮件、网页中存在大量非搜索性条目等。如何高效地分析并从大量信息中获取所需资源是当今面临的严峻挑战。

文本分类作为一种自动处理和分类大量非结构化文本的关键技术,可以帮助用户在短时间内实现互联网上信息的自动识别、分类与管理,对于信息检索、强烈推荐系统、新闻分类、垃圾网页检测等研究领域具有重要的理论价值和现实意义,一直是国内外研究的热点。

......................

1.2 当前研究中存在的不足

国内外学者对文本分类进行大量的研究工作,并取得大量研究成果,提出许多优秀的特征选择与特征加权算法用以评估特征词区分度。但当前研究中,无论是二元还是多元分类问题,仍存在以下问题亟待解决:

(1)不平衡样本集下 DFS 算法分类精度下降。目前,多数研究工作的训练样本均采用均衡样本集,类别间样本数相差较少甚至相同,但实际应用中,收集均衡样本集需要大量人力财力。同时,特征选择算法在特征词正负相关性方面的研究较少,现阶段多数研究工作仅停留在如何更好的表示特征词与特定类别的相关性,即计算特征词评分时,仅涉及特征词正相关性,而忽视对此类别的负相关评分,从而降低分类精度。(2)TF-IDF 特征加权算法忽略类别信息且未考虑位置因素。TF-IDF 算法作为文本分类中的特征加权算法,是一种词语-文档的二维加权策略,正比于词频而反比于总文档占比,具有较好的信息检索效果。但特征加权需要计算词语-文档-类别三个维度,TF-IDF算法忽视特征词与类别的相关性,加权后分类效果无法达到最佳。同时,单个文档中特征词所在位置影响特征词权重,文档首尾的特征词具有启下与总结的作用,较于中间部分传递的信息量更大,对文档具有更高的可代表性,而 TF-IDF 特征加权算法并未考虑距离因素的影响。.......................

第二章 文本分类相关研究

2.1 文本分类概述

文本分类始于上世纪 50 年代末,H.P.Luhn 开创文本分类的研究先例,提出一种基于词频统计的文本分类技术;1960 年,Maron 以概率模型对文本进行分类;六十年代到八十年代,Salton 通过将文本转化为向量来判断类型,提出向量空间模型的概念;九十年代至今,由于机器学习的兴起,大量学者通过机器学习方法对文本进行研究,为文本分类进入实用阶段作出必要的准备。文本分类基本流程包括训练与测试两个阶段。训练阶段:1)对无结果化文本做分词预处理后形成无重复特征词集合;2)特征选择算法对特征词集合降维处理,选择优秀特征词作为分类器输入向量;3)特征加权算法为优秀输入向量附相应权重,达到更好分类的目的;4)整理后训练;测试阶段:1)无标签文本分词预处理后经分类器判断所属类别。2)计算分类精度。具体如(图 2-1)所示,每一部分将在下文详细阐述:

....................

2.2 特征选择算法

特征选择是指通过特征选择算法计算高维度特征词与类别间的内在相关性,得到优劣排名的过程,是文本分类中的一个重要组成部分,下面具体介绍一些常用的特征选择算法。

2.2.1 卡方检测 CHI

CHI (Chi-square test) 算法[29][30]应用统计学中计算两个变量独立性程度的方法,通过观察理论值与实际值的偏差来判断两变量的相关性。具体来讲:首先假设0H 两变量相互独立,计算理论值与实际值的偏差程度,若偏差值在一定程度范围内,则说明偏差程度是通过误差所得,两变量关系遵循0H 假设;若计算偏差程度大于某临界值,则否定原假设0H ,选择假设1H :两变量存在相关性,且值越大,说明相关性越大。在文本分类领域,卡方检测作为一种常用的特征选择算法,用于评价特征词与所在类别的独立性(相关性)程度。卡方值越大,说明特征词与此类别的相关性越大;反之,说明相关性越小。某个特征词t 与某一类别iC 的卡方值如(公式 2-1)所示:

........................

第三章 基于特征词两面性的 DFS-sCHI 特征选择算法 --------------- 16

3.1 引言 ------------------ 16

3.2 DFS-sCHI 算法思想及步骤 ---------------- 16

第四章 基于 DFS 的 TF-pDFS 特征加权算法 ------------ 27

4.1 引言 ---------------- 27

4.2 算法思想及步骤 ---------------- 27

第五章 原型系统设计与实现 ------------------ 35

5.1 系统整体设计 ---------------- 35

5.1.1 系统功能结构 -------------- 35

5.1.2 系统分类流程 --------------- 36

第五章 原型系统设计与实现

5.1 系统整体设计

5.1.1 系统功能结构

原型系统以鸟类信息语料库做训练样本集,分地理与文学两个类别。首先筛选整理含有鸟类字段的 CNI 摘要信息,其次训练分类模型,以 CNI 摘要信息为训练样本集,最后完成鸟类信息的自动分类,剔除文学类别,抽取地理类别的鸟类时空信息。原型系统分三部分:模型简介、前台、后台。系统整体功能模块图,如(图 5-1)所示 三部分:模型简介、前台、后台。系统整体功能模块图,如(图 5-1)所示

(1)模型简介分版本与功能简介,主要介绍此系统各模块功能结构;(2)前台分为批量输入、分词展示、txt 输出、结果展示,批量输入作为系统入口,用于输入待分类未知鸟类样本集,分词展示模块用于展示待分类样本的分词结果,txt 输出模块用于下载分类后的样本信息,结果展示模块可视化展示输入输出以及某些对比信息;(3)后台分为训练样本选择、降维算法选择、加权算法选择、分类器选择模块,主要用于后台管理人员对分类模型的模型选择。

....................

第六章 总结与展望

6.1 总结

文本分类作为自然语言处理领域的一个重要分支,一经提出便引起广泛关注。大数据时代背景下,文本日益增多,使得文本分类具有更大的研究价值。文本分类流程包括分词预处理、特征选择、特征加权、分类器训练等几大模块。本文充分考虑特征选择算法与特征加权算法在某些特定环境下的不足,提出行之有效的改进措施,通过理论加实验验证,改进算法不仅在指定环境下可以表现出较好的分类效果,在一般环境下精度同样不会有所降低。同时,通过仿真系统集成 DFS-sCHI 与 TF-pDFS 算法在不同训练集训练与测试,表现出不俗的分类效果,实现了对无结构化文本的精确分类。本文主要贡献如下:

(1)DFS 作为 2021 年的一种新型全局特征选择算法,通过特征词与类别间建立条件概率模型评价特征词与总体类别的相关性。然而,DFS 算法在不均衡样本集下表现效果欠佳,本文通过理论研究加实验验证,得出 DFS 在不平衡数据集下未取得很好的分类效果,提出一种 DFS 的改进策略。引入局部特征选择算法 CHI,加入特征词与特定类别的相关评分,同时引入正负相关性概念,对特征词进行评分,最终得到较好的分类效果。(2)TF-IDF 作为一种信息检索技术,应用于特征加权便一直是学术界研究的热点,其中之一便是 IDF 的诟病问题:计算的是单个文档的重要性程度而非单个类别。本文参考前人提出的 TF-STW 算法(将特征选择算法作为参数引入),引入 DFS 因子,但 DFS 算法受限于样本的均衡性问题,本文提出调节因子的概念,用于提高低类别特征词的表现效果。同时,加入距离因子更好的表现特征词的重要性程度,从而得到最佳的分类精度。

参考文献(略)