基于BERT的长文本分类方法
作者:
作者单位:

四川大学计算机学院

作者简介:

通讯作者:

中图分类号:

TP391

基金项目:

国家自然科学基金面上项目(62171303); 中国兵器装备集团(成都)火控技术中心项目(非密)(HK20-03); 国家重点研发项目(2018YFC0830300)


BERT-based approach for long document classification
Author:
Affiliation:

College of Computer Science, Sichuan University

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    由于预训练模型输入分词数量限制,基于 BERT 的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于 BERT 和集合神经网络的长文本分类模型.该方法以 BERT 为基础,可处理从同一文本样本分割得到的任意数量文本段,经过 BERT 后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.

    Abstract:

    Concerning the input limitation of pre-training model, a long document needs to be spit into a set of text segments. The performance of long document classification is closely related to the further processing of the segment set and feature fusion. Existing document classification models keep more attention on the sequential of segments in the text segment set. However, the athors consider that the sequential order of segments have a mild influence on drawing the feature of a long document. The authors propose a BERT based long document classification model, which utilizes deep sets to obtain the collectionlevel feature from the segment set. In the model, the authors obtain a set of text segment features after BERT, and this proposed network which is immune to permutation learns the identical feature of the set to represent the long document feature. The accuracy of our model on the 20 newsgroups dataset achieved 90.82%, which outperforms the state-of-the-art method by 4.37%.

    参考文献
    相似文献
    引证文献
引用本文

引用本文格式: 刘博,蒲亦非. 基于BERT的长文本分类方法[J]. 四川大学学报: 自然科学版, 2023, 60: 022003.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-05-12
  • 最后修改日期:2022-08-19
  • 录用日期:2022-08-30
  • 在线发布日期: 2023-03-29
  • 出版日期:
通知
自2024年3月6日起,《四川大学学报(自然科学版)》官网已迁移至新网站:https://science.scu.edu.cn/,此网站数据不再更新。
关闭