- 博客(18)
- 收藏
- 关注

原创 记录一次基于kaggle比赛的细节,时序分割,特征构造,缺失值处理
记录一次基于kaggle比赛的细节,时序分割,特征构造,缺失值处理。前言数据处理缺失值的处理模型构造训练部分前言这次参加了kaggle上的一个信用卡诈骗预测项目,比赛之中有些细节希望可以记录下来分享,同时以防时间长忘记。比赛地址:https://www.kaggle.com/c/ieee-fraud-detection数据处理简要说明一下这次比赛给的数据特征:1.五百个匿名特征2.部...
2019-07-31 16:40:59
2665
8
原创 CNN经典论文系列之从Faster R-CNN再到Mask R-CNN
前言这篇文章是记录jiongnima大神那里学习实例分割的过程,地址:https://blog.csdn.net/jiongnima/article/details/79094159。在当前的目标检测、实例分割领域中这两个大名鼎鼎的cnn网络可谓是一枝独秀。至于为什么要把他们两放到一起说,那是因为Mask R-CNN的大量工作是继承与Faster R-CNN。我们先从Faster R-CNN讨...
2019-08-27 21:26:51
351
原创 图像分割的损失
前言记录一下在kaggle图像分割比赛中用到的一些损失函数,基于tensorflow与keras的实现。交叉熵在Keras中,损失函数是binary_crossentropy(y_true, y_pred);在TensorFlow中,它是softmax_cross_entropy_with_logits_v2加权交叉熵加权交叉熵(WCE)是CE的变体,其中所有正例都通过某个系数...
2019-08-26 18:57:19
2027
原创 svm 算法详解与推导
前言由于纸质笔记又臭又长(SVM这篇长达六张纸),可能字太难看完全没欲望于是把一些笔记整理到网上(有些公式太多可能直接上纸质照片),方便翻阅。主要有这么个部分:函数间距、几何间距、软间距定义与区别。SVM推导、拉格朗日乘子法、KKT条件、对偶问题非线性决策边界和核函数SMO算法详解...
2019-08-22 22:20:01
1783
原创 从variance与Bias的角度去看boosting和bagging
Bias and Variance 分析Bias:表示我们的模型预测的期望值(或者叫平均值)与模型想要努力接近真实值的difference。注意一点,这里的期望值是指,你可以通过多个数据集(随机性)来训练多个模型(参数会不同),这些模型的预测值与真实值的偏差叫Bias。这一过程不可以简单认为一个模型的多个测量算得的。Variance:表示模型对于给定数据点预测的可变性。当然可变性的统计也是基于...
2019-08-21 17:22:42
301
原创 梯度消失与爆炸的根本原因相关见解
前言本文降从反向传播,BN,激活函数,残差网络的几个部分分析几种解决梯度消失的方案。根本原因-反向传播过程这里我们使用sigmoid,求导之后图像如下:发现sigmoid函数求导后最大最大也只能是0.25。再来看W,一般我们初始化权重参数W时,通常都小于1,用的最多的应该是0,1正态分布吧。对于:多个小于1的数连乘之后,那将会越来越小,导致靠近输入层的层的权重的偏导几乎为0,也就...
2019-08-21 15:26:09
415
原创 神经网络训练的一些方法
前言许多神经网络不WORK的原因在于逻辑与语法的错误,我们可以分单元逐个测试排除错误。但这只是训练神经网络的一个开始。一切都可能在语法上正确,但整个事情没有妥善安排,而且很难说清楚。“可能的错误表面”是大的,逻辑的(与语法相反),并且对单元测试非常棘手。例如,在数据增强期间左右翻转图像时,您可能忘记翻转标签。您的网络仍然可以(令人震惊地)工作得非常好,因为您的网络可以在内部学习检测翻转的图像,然...
2019-08-20 15:58:12
4467
原创 各种树模型细节比较(分类树,回归树,随机森林,gbdt, xgboost)
前言树模型实在是个庞大的家族,里面有许多细节值得注意,怕自己遗忘,写一期总结方便以后查询。先介绍三种划分方式:信息增益:计算数据集D中的经验熵H(D):计算特征A对数据集D的经验条件H(D/A):计算休息增益差:其中D为样本容量,pi代表当前节点D中i类样本比例。设有K个类(1,2,…,K),Ck为属于为K类样本的样本数。设特征A有j个不同的取值(a1,…,aj),根据A的取值...
2019-08-13 18:57:43
5233
原创 谈谈对机器学习中L1与L2正则化的一些理解
正则化(Regularization)一 机器学习中的过拟合机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。通俗点说就是模型复杂到可以记住你所有样本,包括其中的噪声。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是数据增强(smote数据生成)以及适当选择模型和最常见的正则化,例如 L1...
2019-08-13 14:50:37
391
原创 CNN经典论文系列之 Inception(V1~V4及其他版本比较)
Inception V1Inception v1的网络,将1x1,3x3,5x5的conv和3x3的pooling,堆叠在一起,一方面增加了网络的width,另一方面增加了网络对尺度的适应性。第一张图是论文中提出的最原始的版本,所有的卷积核都在上一层的所有输出上来做,那5×5的卷积核所需的计算量就太大了,造成了特征图厚度很大。为了避免这一现象提出的inception具有如下结构,在3x3...
2019-08-12 12:22:59
1120
原创 CNN经典论文系列之 Inception(包含tensorflow代码)
摘要大名鼎鼎的的Inception系列网络,是由Google Inc在2018年9月发布的“Going deeper with convolutions”,中文意思为更深的卷积。由此也可见一斑,该文章在深度神经网络的结构大做文章。提出了一种代号为Inception的深度卷积神经网络结构,并在分类和检测上取得了新的最好结果。inception体系结构的主要特点是提高了网络内计算资源的利用率。...
2019-08-11 21:09:09
909
原创 经典CNN论文系列之 VGG(包含tensorflow代码)
摘要这篇论文的主题其实在其论文名就能看出来,VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION即,用于大规模图像识别的深度卷积网络。我概述一下这篇文章的摘要:研究了卷积网络的深度对其在大规模图像一些识别设置中的精度影响。(主要贡献是使用一个非常小(3x3x3)卷积滤波器代替了7X7的卷积滤波器)提出了一种深度...
2019-08-10 16:45:53
539
原创 经典CNN论文系列之ResNet(包含tensorflow 代码实现)
摘要总结一下作者在摘要中简明扼要的提出了Resnet解决了什么问题以及其优越性:针对深层神经网络难以训练,提出了一种残差学习框架来简化网络训练,这些网络可以比以前使用的网络要深入得多。通过重复利用已学习过的参考层输出,将层重新表示为参考层输出与当前层的和。因为参考层的输出是以及学习过的,而不是未学习的函数。所以添加这样子的框架并不会给网络带来参数的巨大增加。对比了VGG网络,实验表明即...
2019-08-10 14:51:02
914
原创 python-快速图像增强-imgaug库的运用
前言以下示例显示了包含许多不同增强器的大型增强序列,从而导致增强图像发生重大变化。根据用例,这些增强可能过于强大,有可能导致图像的破坏,为了削弱的影响,可以降低的值来减少。如以下代码的概率#Sometimes(0.5, ...) 以50%的概率下应用我们指定的图像增强,sometimes = lambda aug: iaa.Sometimes(0.3, aug)代码直接上代码,每一段都...
2019-08-08 15:03:58
603
原创 XGBoost推导证明以及与GBDT算法比较
GBDT (Gradient Boosting Decision Tree)比较XGBoostXGBoost和GBDT 一样是集成学习Boosting家族的成员,此外XGBoost基于GBDT的算法改进。GBDT是用模型在数据上的负梯度作为残差的近似值,从而拟合残差;XGBoost也是拟合的在数据上的残差,但是它是用泰勒展开式对模型损失残差的近似;同时XGBoost对模型的损失函数进行的...
2019-08-04 16:31:35
617
原创 在TF.DATASET和keras的ImageDataGenerator中应用CV2完成复杂图像处理
前言在深度学习的实际工作和比赛中,对于小规模数据集我们可以采用运用opencv的各种操作处理,然后全部读取到内存中再传入tf.data.dataset的pipline完成数据读取(tf.data.dataset的预处理在一般情况只支持TF预置的一些简单图像操作)。但是在大规模数据集中,这种是方案需要大量消耗内存,对于我们这种平民玩家是不可行的方案。对于这种情况,有两个解决方法(是我个人常用的两种...
2019-08-03 12:37:50
815
原创 牛顿法、阻尼牛顿法和多种拟牛顿法 (DFP、BFGS、L-BFGS) 推导和介绍
牛顿法牛顿法是一种近似求解方程的方法,方法使用函数f(x)的泰勒展开前几项来寻找f(x)=0的根。1.具体步骤:选择一个接近f(x)零点的x0和切线斜率f’(x0),然后计算穿过(x0,f(x0)并且斜率为f’(x0)的直线与x轴交点x坐标,即求解:-再选择一个x1比x0更接近f(x)=0的解,令x–>x1,开始迭代:remark: 已经证明若f’为连续,并且待求的零点为孤立...
2019-08-01 12:31:25
2892
原创 梯度下降的代价函数推导以及对比最小二乘法与牛顿法
前言梯度下降目的是最小化损失函数:批量梯度下降(Batch Gradient Descent,BGD)优点:(1)准确率高。缺点:(1)训练和收敛速度慢。(2)可能不会收敛到最小值,而是在附近震荡。解决方法:采用学习率衰减的方法。随机梯度下降(Stochastic Gradient Descent,SGD)优点: (1)在每轮迭代中,随机优化某一条训练数据上的损失函数,...
2019-07-31 19:32:32
558
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人