- 博客(32)
- 收藏
- 关注
原创 Shusen Wang推荐系统学习 --召回 矩阵补充 双塔模型
该模型(不清楚叫什么,属于矩阵补充)是使用用户id和物品id经过embedding映射到一个向量上,使用向量的内积作为用户对物品的兴趣。训练时使用的损失函数自然要使用用户对该物品的真实兴趣与预测兴趣之间的差距ABminuiy∈Ω∑y−⟨aubi⟩2该模型训练时需要正负样本,正样本为曝光给用户且用户真正点击的物品代表用户对该物品感兴趣,负样本是曝光给用户但用户没有点击的。
2025-07-10 16:15:19
1012
原创 Shusen Wang推荐系统学习 --召回 ItemCF
学习b站up主Shusen Wang的推荐系统余弦相似度和内积交叉熵配合sigmoid有很好的梯度形式但是mse配合sigmoid形式一般般,交叉熵本身是对概率建模。
2025-07-09 17:30:30
827
原创 马尔可夫决策过程
马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念,当想使用强化学习解决实际问题时,第一步就是将实际问题抽象为马尔可夫决策过程,这个过程的目的是使当前分数更高。
2025-07-08 16:59:40
985
原创 Pytorch实现Transformer
首先实现这个部分是因为不论解码器还是编码器都需要这一部分。首先我们假设归一化(LayerNorm)已经做好了。因为我们不确定是Encoder还是Decoder,所以用sublayer传入来作为上一层。接下来实现LayerNorm这一串代码很简单,就是公式的实现而已,注意要把a_2和b_2作为可以学习的变量。
2024-09-24 18:34:30
1217
1
原创 Transformer理论阶段
Transformer分为两个部分,一个是编码器,一个是解码器,左侧是编码器,右边是解码器。Transformer是一个seq2seq模型,是由一个序列到一个序列的模型,输入一个词向量到编码器得到更好的词向量,输入到解码器最终输出出一个个词。
2024-09-10 17:13:36
1235
原创 Trm理论 3(注意力机制)
在使用LSTM,CNN等模型的时候,很难决定对于一个信息什么是重要的,什么是不重要的。因此注意力机制就是为了优化这一问题。
2024-09-06 02:11:11
797
原创 Trm理论 2(Word2Vec)
NNLM模型是上次说过的模型,其目的是为了预测下一个词。softmax(w2tanh(w1会得到一个副产品词向量而Word2Vue就是专门求词向量的模型。
2024-09-04 01:34:13
610
原创 NLP笔记
对于机器来说,不能理解一句话的意思,解决办法就是将一句话分割成多个词,用数字代表一个词,将一句话转化成数字的列表这个词对应的字典又是怎么训练出来的呢,遍历这个词的列表,如果在字典就数字加一,不在则新建为1,排序之后,按照频率重新把值换成123456的排序。对于这个句子,我们要分析他是正面的还是负面的,我们需要句子是一样长的,解决办法就是对于长的句子我们只取后8个(例子),小于8个的就在前面填上0。数据处理完接下来就是训练模型。
2024-07-28 16:54:55
346
原创 Pytorch 9
softmax回归在pytorch里面已经封装了激活,所以最后一层不做激活。当你需要预测的时候可以使用with使pytorch不产生计算图。softmax多分类问题。
2024-07-23 21:34:13
385
1
原创 Pytorch 8
这节课是讲mini_batch数据下载的第一个类是抽象类,只能继承第二个可以直接用定义这个类要做两件事,第一件就是让他能下标调用,第二件事可以返回长度。
2024-07-23 19:22:31
460
原创 Trm理论
一个模型a和一个模型b,a是已经训练好的,a和b是解决相似问题,a和b的浅层神经网络很像,因此直接对b使用a的浅层神经网络,使得b不需要太多的数据,解决了b数据不够的问题。
2024-07-16 04:52:05
529
原创 吴承恩深度学习第四周编程作业
最重要的一点,在写函数的时候要想清楚我要输入什么,要返回什么,用什么东西存储我计算出来的值,很明显,字典是一个好的选择。-1是一个特殊的参数,告诉他自己计算图片的大小,最后得到的是一个行向量的一维数组,转置得到一个列向量。图片,吴承恩给的图片的大小是644*64*3的,因此我们第一个w的初始化有要求,必须有12288列。因为对于每一层,都有两个数据w和b被存入parameters,因此要整除2。3.为什么总是看到了len(parameters)//2。
2024-05-13 18:16:55
302
1
原创 吴承恩深度学习课程.第四周笔记
前面几周学习了一层隐藏层和没有隐藏层的神经网络,这一周针对于深层神经网络学习。对于一个神经网络,最主要的就是前向传播和反向传播还有梯度下降这是整个神经网络的计算图,我将逐步做笔记。
2024-05-08 23:33:13
344
1
原创 吴承恩深度学习第三周编程作业.笔记
在这其中每一个参数的维度要搞清楚,以上就是我做完这次作业觉得需要注意的点,附上我的代码,也是借鉴了别人的。这是最主要的三个函数,其次就是随机初始化和花费,随机初始化的作用很重要,花费函数其次。作业包括代码网上有很多,我主要谈谈我的理解,完成一个神经网络需要三步。
2024-05-06 17:25:47
234
原创 统计学笔记.科学记者
比如,实验表明双氧水对癌症有抑制作用,他们实验确实是对癌细胞使用,但是,他并没有对人体实验,仅仅是对在培养皿中的癌细胞使用,其实咖啡酒精能达到同样的效果,但根据常识就知道没有什么用,如果仅仅因为这篇文章就去大量将双氧水融入生活,那真是太蠢了。举个例子,实验表明喝可乐对感冒有好处,但是这个文章在可乐公司官网上发布,或者你看到了资助方有可乐公司,你就需要保持怀疑的态度。这节课的关键在于我们在看一篇科学新闻时,我们需要注意的几个点,谁写的,谁发表的,谁资助的科学,谁做的科学。
2024-04-23 13:36:11
143
原创 统计学笔记.相关性
这节课主要讲的是用大量的数据拟合成一条线,代表了一个变量与另一个变量的线性关系y=ax+b数据的方差r区间为(-1,1)表示了相关性的正负和大小,也有R^2属于(0,1)只代表了相关性的强弱这里其实就是逻辑回归里面的线性回归算法。这节课的另一个重点其实是相关性和因果性的关系。
2024-04-18 17:22:14
363
1
原创 统计学笔记.数据的形状与分布
数据的形状及分布,讲了几种数据的样子,比如正态分布,偏态分布正态分布,中位数众数均值均在中间,意味着数据是对称的,标准差控制着正态分布的胖瘦,因为标准差代表了数据距离均值的平均距离大小,概率也是固定的,均值上下一个标准差概率是68%,余下省略。正态分布偏态分布都是只有一个峰值,有时候有些有多个峰值称为。
2024-04-18 17:01:30
329
1
原创 统计学笔记.数据可视化
图表的本质是提供信息,不论什么样的图表,总体目的是把数据展示清楚,阅读图标时,也要看清楚图标想表达出的信息以及这个图标想隐瞒什么。
2024-04-17 17:06:48
219
1
原创 统计学笔记.中位数,众数,均值
分别是众数,中位数,和平均值,这是一个偏态分布,一旦出现平均值比众数中位数大得多的情况就说明有一个极端数据在影响平均值,这类问题看众数可能更好的表现数据的普遍情况,根据数据的不同情况选择使用一种或几种集中数据类型来表示数据特点,这是我对这节课的理解。
2024-04-17 11:50:26
296
1
原创 吴恩达深度学习课程.第一周
最简单的一个神经网络就是一个神经元输入一个x通过一个函数映射得到一个y一个复杂的神经网络就是由一个个这样的神经元组成房子大小,卧室数量两个参数得到家庭人口数,邮政编码得到当地经济,当地财富得到教学质量,在以家庭,经济,教学质量作为参数来得到最后的房子价格而这些找到函数都是由神经网络去做的,你所做只需要输入参数即可得到你想要得到预测的y值神经网络做到找到函数这个操作离不开监督学习的机器学习方法。
2024-04-16 23:38:09
215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人