29、自组织映射自动标注与大规模数据神经网络分类器

Sunny

于 2025-06-08 09:50:29 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘与知识发现的新视角文章标签：自组织映射 LabelSOM 神经网络分类器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunny/article/details/149389078

数据挖掘与知识发现的新视角专栏收录该内容

65 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

自组织映射自动标注与大规模数据神经网络分类器

自组织映射自动标注

在数字图书馆等领域，自组织映射（SOM）是一种常用的数据挖掘工具。然而，未标注的 SOM 映射结果往往难以解释，尤其是在处理大量高维数据时。下面将介绍一种自动标注 SOM 的方法——LabelSOM，并通过具体示例展示其应用和优势。

示例数据与处理

动物数据集 ：使用动物数据集训练一个 6×6 的 SOM。每个节点被分配 5 个标签，但可能存在一个或多个标签为空的情况，例如右下角代表狗的节点。这是因为少于 5 个向量元素的权重向量值 mik 大于阈值 τ。
软件技术出版物 ：选取软件技术系的 48 篇出版物，通过部门网站获取。采用全文索引表示文档，识别出 482 个内容术语用于文档表示。在索引过程中，忽略出现次数少于 10%或多于 90%的术语，并应用基本词干提取规则。术语根据简单的 tf×idf 加权方案进行加权。

SOM 训练与问题

训练结果 ：使用 48 篇论文摘要训练一个 7×7 的 SOM，节点列出映射到该节点的输入向量（摘要）。摘要命名规则为论文第一作者姓名的前三个字符，后跟相应会议的缩写标签。
解释困难 ：在缺乏对底层文档的额外知识时，图 2 所示的 SOM 映射结果难以解释。虽然作者姓名可能提供一些聚类结构的线索，但无法从映射中获取论文内容的信息（如关键词）。由于权重向量维度为 482，手动检查单个向量元素的重要性

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。