29、自组织映射自动标注与大规模数据神经网络分类器

自组织映射自动标注与大规模数据神经网络分类器

自组织映射自动标注

在数字图书馆等领域,自组织映射(SOM)是一种常用的数据挖掘工具。然而,未标注的 SOM 映射结果往往难以解释,尤其是在处理大量高维数据时。下面将介绍一种自动标注 SOM 的方法——LabelSOM,并通过具体示例展示其应用和优势。

示例数据与处理
  • 动物数据集 :使用动物数据集训练一个 6×6 的 SOM。每个节点被分配 5 个标签,但可能存在一个或多个标签为空的情况,例如右下角代表狗的节点。这是因为少于 5 个向量元素的权重向量值 mik 大于阈值 τ。
  • 软件技术出版物 :选取软件技术系的 48 篇出版物,通过部门网站获取。采用全文索引表示文档,识别出 482 个内容术语用于文档表示。在索引过程中,忽略出现次数少于 10%或多于 90%的术语,并应用基本词干提取规则。术语根据简单的 tf×idf 加权方案进行加权。
SOM 训练与问题
  • 训练结果 :使用 48 篇论文摘要训练一个 7×7 的 SOM,节点列出映射到该节点的输入向量(摘要)。摘要命名规则为论文第一作者姓名的前三个字符,后跟相应会议的缩写标签。
  • 解释困难 :在缺乏对底层文档的额外知识时,图 2 所示的 SOM 映射结果难以解释。虽然作者姓名可能提供一些聚类结构的线索,但无法从映射中获取论文内容的信息(如关键词)。由于权重向量维度为 482,手动检查单个向量元素的重要性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值