自组织映射自动标注与大规模数据神经网络分类器
自组织映射自动标注
在数字图书馆等领域,自组织映射(SOM)是一种常用的数据挖掘工具。然而,未标注的 SOM 映射结果往往难以解释,尤其是在处理大量高维数据时。下面将介绍一种自动标注 SOM 的方法——LabelSOM,并通过具体示例展示其应用和优势。
示例数据与处理
- 动物数据集 :使用动物数据集训练一个 6×6 的 SOM。每个节点被分配 5 个标签,但可能存在一个或多个标签为空的情况,例如右下角代表狗的节点。这是因为少于 5 个向量元素的权重向量值 mik 大于阈值 τ。
- 软件技术出版物 :选取软件技术系的 48 篇出版物,通过部门网站获取。采用全文索引表示文档,识别出 482 个内容术语用于文档表示。在索引过程中,忽略出现次数少于 10%或多于 90%的术语,并应用基本词干提取规则。术语根据简单的 tf×idf 加权方案进行加权。
SOM 训练与问题
- 训练结果 :使用 48 篇论文摘要训练一个 7×7 的 SOM,节点列出映射到该节点的输入向量(摘要)。摘要命名规则为论文第一作者姓名的前三个字符,后跟相应会议的缩写标签。
- 解释困难 :在缺乏对底层文档的额外知识时,图 2 所示的 SOM 映射结果难以解释。虽然作者姓名可能提供一些聚类结构的线索,但无法从映射中获取论文内容的信息(如关键词)。由于权重向量维度为 482,手动检查单个向量元素的重要性