最大判别特征选择算法在文本分类的优化研究
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TN929.5

基金项目:

国家自然科学基金(61262040)


Bayesian classifier-based maximum discriminant feature selection algorithm for text categorization
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.

    Abstract:

    When using Naive Bayes classifier to classify texts, the feature selection method has a direct impact on the performance of the classifier.In this paper, a maximum discrimination (MD)feature selection algorithm is proposed. After N types of probability distributions are obtained through training, the ability to distinguish the categories of each feature in its feature vector d is acquiredby testing the sample, and a new feature vector ε is constructed for classification, the selected features from the feature selection have the maximum discrimination capacity for text categorization. Simulation results show that compared with cMFD, CSFS and CMFS feature selection algorithms, MD feature selection algorithm can obtain higher classification accuracy when fewer features are selected.

    参考文献
    相似文献
    引证文献
引用本文

引用本文格式: 刘云,黄荣乘. 最大判别特征选择算法在文本分类的优化研究[J]. 四川大学学报: 自然科学版, 2019, 56: 65.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-04-10
  • 最后修改日期:2018-06-28
  • 录用日期:2018-06-28
  • 在线发布日期: 2019-01-24
  • 出版日期:
通知
自2024年3月6日起,《四川大学学报(自然科学版)》官网已迁移至新网站:https://science.scu.edu.cn/,此网站数据不再更新。
关闭