tensorflow实现word2vec报错&解决集

最新推荐文章于 2022-07-06 15:59:26 发布

小茶子

最新推荐文章于 2022-07-06 15:59:26 发布

阅读量997

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习自然语言处理 PYTHON

本文链接：https://blog.csdn.net/younger821/article/details/104577058

先是从书上学习，然后利用随书代码实现word2vec，代码在此：https://github.com/PacktPublishing/Natural-Language-Processing-with-TensorFlow/blob/master/ch3/ch3_word2vec.ipynb

因为想做领域词的识别，故没有用已有的英文数据试验，用的自己找的专业领域的小段语料做实验，先用jieba分词，然后开始Word2vec，这篇就写写报的错以及解决，有时间再详解代码。

1、在Generating Batches of Data for Skip-Gram阶段，报错：

print(' batch:', [reverse_dictionary[bi] for bi in batch])
KeyError: 326960996

原因是：batch一开始是通过np.ndarray随机初始化的任意数值数组，当2倍window_size的大小没有被batch_size整除时，batch里剩下的值（如上面报错的326960996）作为reverse_dictionary的索引必然报错。举个例子如下，一切了然：

# data=[44,45,46,47,48,49,0,0,0,5,0,0,0,15,16.......]
# 示例：batchsize=16, windowsize=1,buffer队列长度=3,numsamples=2的时候
# batch=[45,45,46,46,47,47,48,48,49,49,0,0,0,0,0,

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小茶子

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【自然语言处理】情感分析（三）：基于 Word2Vec 的 LSTM 实现

Code · Cloud · Think · Repeat

01-27

3203

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

利用word2vec、textCNN、jieba对事故文本多分类及致因修复（三维向量）

Seere的博客

07-22

1700

中文分词 + 数据集三维向量化+ TextCNN 一、背景经过几天的测试及模拟建模训练，尝试了机器学习中的一些常用模型，例如Lasso、LR、SVM、XGBoost、GBTD等，发现效果并不如人意，最好最好的结果也是刚刚超过60%的准确率。思考了一下原因，发现主要还是因为在传统机器学习模型中，输入的是一条一条的行向量，正如之前文章中用到的方式，将一个文本先分词，得到一个词组，在把词组中...

4 条评论您还未登录，请先登录后发表或查看评论

运用TensorFlow处理简单的NLP问题

github_35804313的博客

08-06

1648

当前“人工智能”是继“大数据”后又一个即将被毁的词，每家公司都宣称要发力人工智能，就跟4-5年前大数据一样，业界叫的都非常响亮，不禁想到之前一个老外说过的话： Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims. 现在看来，上面的”Big Data”可以换成

解决gensim训练word2vec模型时，出现的MemoryError问题

zcyzhangzhou的博客

02-27

4240

最近在看52nlp大神的“我爱自然语言处理”，学习用gensim对中文维基百科训练Word2Vec模型，并进行词语相似度测试实验。（52nlp 原文链接）但是在学习过程中，出现了两次MemoryError问题。第一次出现MemoryError错误是在完成语料处理后，进行Word2Vec模型训练时。百度了下，原因是因为内存不足造成的。因为我下载的中文维基百科的语料库有1.6G，在gensim训...

AttributeError: ‘Word2Vec‘ object has no attribute ‘similarity‘

DL_Iris的博客

07-28

1万+

错误代码： y1 = model.similarity(u"新冠", u"疫情") print(y1) 报错： AttributeError: 'Word2Vec' object has no attribute 'similarity' 正确代码： y1 = model.wv.similarity(u"新冠", u"疫情") print(y1) 修改方法：对照Gensim用户手册,找正确的参数引用形式。用户手册中使用most_similar的方法如下，所以也参照这个用法使用similarity了

一些小问题

相国大人

07-10

1546

1,如何在 PyCharm 中设置 Python 代码模板 2,PyCharm 中文注释报错 SyntaxError: Non-ASCII character 3,Ubuntu 安装Navicat，界面出现乱码解决方法 4,Ubuntu navicat导入csv文件失败：多半是字段分隔符按照默认的设定成了“定位”，改成逗号（或者换其他几个选项试试）

中文词向量word2vec计算相似度

xiyou__的博客

07-06

1524

基于word2vec词向量计算中文词语之间的相似度。

【Word2Vec】运行报错以及处理结果

weixin_45330288的博客

05-02

2004

Word2vec运行时出现的错误记载

wide & Deep 和 Deep & Cross 及tensorflow实现

热门推荐

yujianmin1990的专栏

01-14

2万+

CSDN简直就是最烂的编辑器了，艹，两遍了，这篇文章被莫名覆盖掉！！！前言　　最近读了下Google的两篇文章《Wide&Deep Learning》和《Deep&Cross Network》，趁着热乎比较下，顺道写个demo，免得后面用的时候瞎搞。　　前者是用来给用户推荐潜在喜欢的APP；后者是用来预测用户可能点击的广告排序。基于用户基本信息和行为日志来做个性化的推荐，是商业化的重要一步，

word2vec代码_从word2vec理论到实现的断层到更广泛的视角看word2vec

weixin_39796116的博客

11-24

117

常见的word2vec的cbow模式的网络结构如上图，需要注意的是：1、其具体的实现的物理结构是：就是一个v*n的embedding层和一个n*v的embedding层，看多了总会有一种多输入nn结构的错觉；2、如果使用keras实现的话，cbow直观上的实现应该是这样的：【不可思议的Word2Vec】6. Keras版的Word2Vecspaces.ac.cn#CBOW输入 input_wor...

Faster-rcnn代码python2转换python3的KeyError: b‘TEST‘问题

ydestspring的博客

09-23

476

一直用的一个faster-rcnn代码是python2的，决定把它改为python3。很多报错都是print函数，xrange函数，较好解决。解决到最后被一个报错，卡了一天，在网上也无法找到解决方案，记录一下：报错如下： Caused by op 'PyFunc', defined at: File "/home/q/yd/Faster-RCNN-21/tools/demo.py", line 118, in <module> net = get_network(arg...

python变量初始化的位置不当、程序结果可能会出现问题_解决tensorflow由于未初始化变量而导致的错误问题...

weixin_39704374的博客

12-08

630

我写的这个程序import tensorflow as tfsess=tf.InteractiveSession()x=tf.Variable([1.0,2.0])a=tf.constant([3.0,3.0])x.initializer.run()sun=tf.div(x,a)print(sub.eval())sess.close()出现了如下所示的错误：原因是倒数第二行的sub没有初始化，倒数...

解决Tensorflow使用CPU报错[ /job:localhost/replica:0/task:0/device:CPU:0 ]

梦醒时分

11-21

2万+

最近在跟着&lt;21个项目玩转深度学习&gt;中第三章的模型,但是遇见一个问题,我认为应该是CPU和GPU的使用问题. 解决方法是将slim文件夹中的train_image_classifier.py文件中的 tf.app.flags.DEFINE_boolean('clone_on_cpu', Flase, 'Use CPUs to...

人工智能AI编程基础(四)

文山

03-18

622

TesnorFlow可以指定运行设备的类型是GPU、CPU,默认如果有GPU则会优先启用GPU,并且默认指定使用第1块显卡. Tensor类型可以方便的转换为Numpy类型. TesnorFlow可以指定运行设备的类型是GPU、CPU,默认如果有GPU则会优先启用GPU,并且默认指定使用第1块显卡. Tensor类型可以方便的转换为Numpy类型. # coding: utf-8 # @时间 : 2022/3/18 2:29 下午 ...

成功解决AttributeError: 'Word2Vec' object has no attribute 'index2word'

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

02-19

1万+

成功解决AttributeError: 'Word2Vec' object has no attribute 'index2word' 目录解决问题解决思路解决方法解决问题 AttributeError: 'Word2Vec' object has no attribute 'index2word' ...

Python基于word2vec的词语相似度计算

数据之旅的点点滴滴

10-21

9890

词语相似度计算在商品搜索的过程中，可以计算用户输入的关键字与数据库中商品名间的相似度，在商品数据库中找出相似度最大的商品，推荐给用户。比如“凳子”跟“椅子”的语意更相近，跟“香蕉”或“冰箱”的语意相对较远，这种相近的程度就是词语的相似度。在实际的工程开发中可以通过word2vec实现词语相似度的计算。 from sklearn.datasets import fetch_20newsgr...

gensim.models.Word2Vec参数 size 如何选择？&&相似度如何判定？

洪源的博客

12-25

1万+

目录前言训练结果结果测试 20纬度测试 50、100、200纬度测试相关系数与纬度变化结论前言 size参数决定词向量训练的纬度，size如何选择，这里做了个实验 #!/usr/bin/env python # coding=utf-8 # Creative time 2020/3/20 # Creator HongYuan Guo from gensim.mo...