文本文档的稀疏迁移分类与超向量模式学习规划
文本分类实验与结果
在文本分类领域,针对 20Newsgroup 和 Reuters 这两个数据集进行了一系列实验。首先来看这两个数据集的关键信息,如下表所示:
| 名称 | #样本 | #特征 | #标签 |
| — | — | — | — |
| Comp | 4857 | 25804 | 2 |
| Rec | 3968 | - | - |
| Sci | 3946 | - | - |
| Talk | 3250 | - | - |
| Orgs | 1237 | 4771 | 2 |
| People | 1208 | - | - |
| Places | 1016 | - | - |
对于实验中涉及的模型参数,JDA 有两个模型参数。子空间基的数量 k 通过网格搜索从集合 {1, 2, 5, 10, 20, …, 100, 200} 中选取,最终设置为 100;正则化参数 λ 通过网格搜索从集合 {0.1, 0.2, 1, 2, 5, …, 10} 中确定,两个类别均设置为 1。TCA 有一个参数,即子空间维度,从集合 μ = {1, 2, 5, 10, 20, …, 100, 200} 中确定,最终两个类别都设置为 μ = 50,高斯核的宽度设置为 1。
在性能比较方面,通过 5 次 2 折交叉验证方案,对六个 Reuters 数据集和新闻组的跨域采样进行了总共 276 次测试运行。实验结果以平均误差的形式展示在下表中,括号内为标准差:
| 数据集 | 算法 | SVM | PCVM | STVM(Our Work) | TC