基于改进蚁狮优化器的COVID - 19虚假新闻检测
1. 引言
COVID - 19疫情是全球面临的重大医疗危机,社交媒体成为了信息的主要来源。然而,虚假新闻也随之泛滥,给公众带来了极大的困扰,因此检测COVID - 19相关的虚假新闻迫在眉睫。
目前已有多种分类方法用于虚假新闻检测研究,例如使用BERT嵌入和浅层神经网络识别COVID - 19推文;运用10种机器学习算法和7种特征提取技术对COVID - 19虚假新闻进行分类;采用逻辑回归、决策树、梯度提升和向量机支持等机器学习分类器检测社交媒体上的虚假新闻;还使用卷积神经网络(CNNs)、长短期记忆网络(LSTM)和双向编码器表示(BERT)等进行虚假信息检测。随着深度学习(DL)的引入,文本分类领域取得了显著进展,虚假新闻分类也受益于此。
本研究旨在通过进化虚假新闻检测方法,确定与虚假新闻内容相关的最重要特征。虚假新闻的识别主要依赖于新闻网站和社交媒体这两个数据源。研究使用Koirala数据集进行测试,该数据集基于一个虚假新闻网站,创建了六种不同标记形式的数据集,包括词袋、二进制、TF - IDF和TF等,同时还有不同的词干提取方法。
1.1 研究目标与贡献
- 开发改进的蚁狮优化(ALO)元启发式算法,克服原始算法的缺陷。
- 将改进的ALO算法应用于虚假新闻数据的特征选择问题。
1.2 文章结构
- 第一部分描述全球COVID - 19疫情以及当前的虚假信息和新闻情况。
- 第二部分介绍特征选择及其过程。
- 第三部分阐述ALO算法及其相