
机器学习
AmorFatiall
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
——from Internet
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树算法——XGBoost 和 LightGBM
XGBoostXGBoost 是大规模并行 boosting tree 的工具,它是目前最快最好的开源 boosting tree 工具包,比常见的工具包快 10 倍以上。Xgboost 和 GBDT 两者都是 boosting 方法,除了工程实现、解决问题上的一些差异外,最大的不同就是目标函数的定义。故本文将从数学原理和工程实现上进行介绍,并在最后介绍下 Xgboost 的优点。数学原...原创 2019-11-07 21:25:40 · 908 阅读 · 0 评论 -
决策树算法——Random Forest、Adaboost、GBDT 算法
集成学习常见的集成学习框架有三种:Bagging,Boosting 和 Stacking。BaggingBagging 全称叫 Bootstrap aggregating,每个基学习器都会对训练集进行有放回抽样得到子训练集,比较著名的采样法为 0.632 自助法。每个基学习器基于不同子训练集进行训练,并综合所有基学习器的预测值得到最终的预测结果。Bagging 常用的综合方法是投票法,...原创 2019-11-05 15:18:22 · 493 阅读 · 0 评论 -
【NLP】SVD文本特征降维
SVD原创 2019-10-24 21:51:56 · 382 阅读 · 0 评论 -
【NLP】tensorflow进行中文自然语言处理中的情感分析
需要的库numpyjiebagensimtensorflowmatplotlib词向量模型在这个词向量模型里,每一个词是一个索引,对应的是一个长度为300的向量,我们今天需要构建的LSTM神经网络模型并不能直接处理汉字文本,需要先进行分次并把词汇转换为词向量,步骤请参考下图,步骤的讲解会跟着代码一步一步来,如果你不知道RNN,GRU,LSTM是什么,我推荐deeplearning...原创 2019-10-24 20:34:59 · 1533 阅读 · 1 评论 -
【NLP文本分类二】各种文本分类算法集锦,从入门到精通
情感分析说白了,就是一个文本(多)分类问题,我看一般的情感分析都是2类(正负面)或者3类(正面、中性和负面)。本文给出14个分类的例子来讲讲各类文本分类模型—从传统的机器学习文本分类模型到现今流行的基于深度学习的文本分类模型,最后给出一个超NB的模型集成,效果最优。在这篇文章中,笔者将讨论自然语言处理中文本分类的相关问题。笔者将使用一个复旦大学开源的文本分类语料库,对文本分类的一般流程和常...原创 2019-10-23 15:29:42 · 611 阅读 · 0 评论 -
BERT
参考链接I参考链接II原创 2019-12-09 08:49:38 · 135 阅读 · 0 评论 -
NER+HMM
NER(命名实体识别)HMM(隐马尔科夫模型)原创 2019-10-21 16:03:01 · 1221 阅读 · 0 评论 -
【NLP】注意力机制
Attention 机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是 2014 年 Google Mind 团队的这篇论文 Recurrent Models of Visual Attention,他们在 RNN 模型上使用了 Attention机制来进行图像分类。随后,Bahdanau 等人在论文 Neural Machine Translation b...原创 2019-10-17 20:21:03 · 1124 阅读 · 0 评论 -
ELMO模型
概述 word embedding 是现在自然语言处理中最常用的 word representation 的方法,常用的word embedding 是word2vec的方法,然而word2vec本质上是一个静态模型,也就是说利用word2vec训练完每个词之后,词的表示就固定了,之后使用的时候,无论新...原创 2019-10-14 15:58:23 · 880 阅读 · 1 评论 -
【NLP文本分类一】14种分类算法进行文本分类
1.解压文件并处理中文乱码2.批量读取和合并文本数据集3.中文文本分词4.停止词使用5.编码器处理文本标签6.算法模型 --常规算法——方法1——k近邻算法 --常规算法——方法2——决策树 --常规算法——方法3——多层感知器 --常规算法——方法4——伯努力贝叶斯 --常规算法——方法5——高斯贝叶斯 --常规算法——方法6——多项式贝叶斯 ...转载 2019-09-21 10:55:55 · 709 阅读 · 0 评论 -
机器学习-主成分分析PCA
主成分分析(PCA)主成分分析属于数据降维的一种方法。降维具有如下一些优点:使得数据集更易使用。降低算法的计算开销。去除噪声。使得结果容易理解。降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。参考链接...转载 2019-05-18 11:46:59 · 256 阅读 · 0 评论