BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度? 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1)线性归一化 23 2)标准差标准化 23 3)非线性归一化 23 35. 什么是熵。机器学习 ML基础 易 27 熵的引入 27 3.1 无偏原则 29 56. 什么是卷积。深度学习 DL基础 易 38 池化,简言之,即取区域平均或最大,如下图所示(图引自cs231n) 40 随机梯度下降 46 批量梯度下降 47 随机梯度下降 48 具体步骤: 50 引言 72 1. 深度有监督学习在计算机视觉领域的进展 73 1.1 图像分类(Image Classification) 73 1.2 图像检测(Image Dection) 73 1.3 图像分割(Semantic Segmentation) 74 1.4 图像标注–看图说话(Image Captioning) 75 1.5 图像生成–文字转图像(Image Generator) 76 2.强化学习(Reinforcement Learning) 77 3深度无监督学习(Deep Unsupervised Learning)–预测学习 78 3.1条件生成对抗网络(Conditional Generative Adversarial Nets,CGAN) 79 3.2 视频预测 82 4 总结 84 5 参考文献 84 一、从单层网络谈起 96 二、经典的RNN结构(N vs N) 97 三、N VS 1 100 四、1 VS N 100 五、N vs M 102 Recurrent Neural Networks 105 长期依赖(Long-Term Dependencies)问题 106 LSTM 网络 106 LSTM 的核心思想 107 逐步理解 LSTM 108 LSTM 的变体 109 结论 110 196. L1与L2范数。机器学习 ML基础 易 163 218. 梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?深度学习 DL基础 中 178 @李振华,https://www.zhihu.com/question/68109802/answer/262143638 179 219. 请比较下EM算法、HMM、CRF。机器学习 ML模型 中 179 223. Boosting和Bagging 181 224. 逻辑回归相关问题 182 225. 用贝叶斯机率说明Dropout的原理 183 227. 什么是共线性, 跟过拟合有什么关联? 184 共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。 184 共线性会造成冗余,导致过拟合。 184 解决方法:排除变量的相关性/加入权重正则。 184 勘误记 216 后记 219 ### BAT机器学习面试1000题系列知识点详解 #### 1. 归一化为何能提高梯度下降法求解最优解的速度? 归一化技术可以显著改善梯度下降法在训练机器学习模型时的表现。主要原因在于: - **解决尺度差异**:特征之间的尺度差异会导致损失函数的轮廓变得狭长,从而使得梯度下降法沿着这些狭窄的山谷前进,效率低下。通过归一化可以使特征处于相近的尺度范围内,从而使梯度下降更快地找到最小值。 - **加速收敛**:归一化有助于避免梯度在某些方向过大而在另一些方向过小的情况,这有助于提高算法的整体收敛速度。 #### 2. 归一化的可能优势 归一化除了可以加快梯度下降法的求解速度之外,还有可能提高模型的准确性: - **减少过拟合**:通过归一化可以减少特征之间的相关性,从而减少模型复杂度,降低过拟合的风险。 - **简化优化过程**:归一化后的特征更容易被优化算法处理,有助于模型更快达到全局最优或者局部最优解。 #### 3. 归一化的类型 归一化主要有三种类型: 1. **线性归一化**:通常指将数据缩放到[0,1]区间内,公式为\(X' = \frac{X - \text{min}(X)}{\text{max}(X) - \text{min}(X)}\)。 2. **标准差标准化**:将数据转换为均值为0,标准差为1的标准正态分布形式,公式为\(X' = \frac{X - \mu}{\sigma}\),其中\(\mu\)为样本均值,\(\sigma\)为样本标准差。 3. **非线性归一化**:如使用log转换等方法进行非线性变换,适用于数据分布不符合正态分布的情况。 #### 35. 熵的引入 熵在信息论和机器学习中扮演着重要的角色,它是衡量不确定性的一种方式: - **熵的定义**:对于离散随机变量X,其熵\(H(X)\)定义为所有可能事件发生的概率的对数负值的期望值:\(H(X) = -\sum_{i=1}^{n} p(x_i) \log p(x_i)\)。 - **无偏原则**:在机器学习中,熵常用来衡量模型的不确定性和纯度,特别是在决策树算法中,熵用于选择最优的特征进行划分。 #### 56. 卷积的概念 卷积是深度学习中的一项核心技术,特别是在处理图像和序列数据时非常有效: - **卷积的基本概念**:卷积操作通过对输入数据与一个小型的过滤器(或称卷积核)进行逐点相乘并求和,以此提取特征。 - **池化**:池化(Pooling)是指通过取区域内的最大值或平均值等方式来降低数据的空间维度,目的是为了减少参数数量、计算量以及防止过拟合。 #### 随机梯度下降与批量梯度下降的区别 - **随机梯度下降**(Stochastic Gradient Descent, SGD):每次仅基于一个样本来更新模型参数,速度快但不稳定。 - **批量梯度下降**(Batch Gradient Descent):基于所有样本一起计算梯度进行参数更新,稳定但计算成本高。 - **具体步骤**:随机梯度下降的步骤包括随机选取一个样本,计算该样本对应的梯度,并据此调整模型参数;而批量梯度下降则是先计算所有样本的梯度均值,再进行参数更新。 #### 计算机视觉领域中的深度有监督学习进展 - **图像分类**:利用深度卷积神经网络进行图像分类任务,显著提高了分类精度。 - **图像检测**:通过端到端的学习方法实现对象检测,能够精确定位和分类图像中的多个物体。 - **图像分割**:语义分割技术能够在像素级别上识别图像内容,应用于医学影像等领域。 - **图像标注–看图说话**:结合自然语言处理技术,为图像生成描述性的文本标签。 - **图像生成–文字转图像**:根据文本描述生成相应的图像内容,涉及到GANs等生成式模型的应用。 #### 强化学习(Reinforcement Learning) - 强化学习是一种学习策略,通过智能体与环境交互,学习最佳行为策略以最大化奖励信号。 #### 深度无监督学习 - **条件生成对抗网络**(CGAN):一种生成模型,能够根据给定的条件生成特定类别的样本。 - **视频预测**:利用深度学习技术预测未来帧的内容,常用于视频监控、自动驾驶等领域。 #### Recurrent Neural Networks (RNN) - RNN是一类专门用于处理序列数据的神经网络,能够记住过去的信息并对当前输入做出响应。 - **长期依赖问题**:在长序列数据处理中,传统RNN难以捕捉到序列中的长期依赖关系。 - **LSTM网络**:长短期记忆网络(LSTM)是一种特殊类型的RNN,通过门控机制解决了长期依赖问题。 - **LSTM的核心思想**:通过遗忘门、输入门和输出门控制信息的流动,以维持长期记忆。 - **逐步理解LSTM**:从RNN的基本概念出发,逐步介绍LSTM的工作原理及其如何克服长期依赖问题。 - **LSTM的变体**:除了标准LSTM外,还有一些改进版,如GRU(门控循环单元)等。 #### L1与L2范数 - **L1范数**:向量中各个元素绝对值之和,常用于稀疏解的获取。 - **L2范数**:向量中各个元素平方和的平方根,常用于保持模型权重的稳定性。 #### 梯度下降法的神经网络容易收敛到局部最优,为何应用广泛? 尽管梯度下降法在训练神经网络时可能会遇到局部最优的问题,但由于以下原因仍然被广泛采用: - **实用性**:在实际应用中,即使得到的解不是全局最优,往往也能达到很好的性能。 - **计算效率**:梯度下降法计算简便,易于实现,适用于大规模数据集。 #### EM算法、HMM、CRF的比较 - **EM算法**(Expectation-Maximization Algorithm):一种迭代算法,用于含有隐含变量的概率模型的最大似然估计。 - **HMM**(Hidden Markov Model):一种统计模型,用于处理具有时间序列特性的数据,特别是语音识别和自然语言处理领域。 - **CRF**(Conditional Random Field):一种概率模型,用于结构化预测任务,特别适合于序列标注和分割问题。 #### Boosting与Bagging - **Boosting**:通过组合多个弱学习器来构建强学习器的方法,常见的算法有AdaBoost和Gradient Boosting。 - **Bagging**:通过构造多个不同的数据子集,然后对每个子集训练独立的模型,最终通过投票的方式进行预测,代表性算法是随机森林。 #### 逻辑回归相关问题 - 逻辑回归虽然名字中有“回归”二字,但实际上是一种分类算法,主要用于二分类问题。 - 它使用Sigmoid函数作为激活函数,将线性回归的结果转化为概率形式,以判断数据属于某一类别的可能性。 #### Dropout原理 - Dropout是一种正则化技术,通过随机丢弃部分神经元来防止过拟合,可以在训练过程中提高模型的泛化能力。 #### 共线性与过拟合的关系 - **共线性**:指在多变量线性回归中,变量之间存在高度相关性,可能导致回归系数不稳定。 - **过拟合**:模型在训练数据上表现很好,但在未见过的数据上表现不佳。 - **解决方法**:可以通过特征选择、增加正则化项等方式来减轻共线性带来的问题,从而减少过拟合的风险。


























- 零幺零幺2021-01-04就300多条???

- 粉丝: 4
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- (源码)基于Jekyll框架的个人博客系统.zip
- 公路隧道照明节能控制软件方案及实现硕士研究生学位论文.doc
- 夜大学软件工程导论习题答案.doc
- 小型物业管理系统数据库课程设计方案31802.doc
- 整套完整的施工进度网络图.doc
- STC单片机太阳能LED路灯控制器设计方案.doc
- (用友)审计软件应用课程实验报告记录.doc
- 增强学习在图像识别中-洞察研究.docx
- 2012年通信中级工程师考试习题-传输与接入(超级整理版).doc
- 互联网电视行业现状分析及市场前景.doc
- 企业计算机网络维护方案.doc
- (源码)基于C++和Arduino的NexDome望远镜控制系统.zip
- 和初学者谈谈如何学好单片机编程技术.doc
- 城市商业银行网络系统规划与设计.doc
- PLC工业控制的毕业设计.doc
- 智能照明控制系统与楼宇自控系统集成的实现.docx


