深度学习之基础知识整理

        现在大语言模型很火,但它的基础仍然是以神经网络为基础的深度学习,不懂神经网络,不了解深度学习,对于大语言模型的二次开发也是整不明白。

        那到底需要了解哪些知识?才能看懂深度学习/神经网络的基础模型,想要加入AI大潮,想要ALL In ,也是有很高门槛的。至少我自已还差不少知识点。花了点时间,看了一些资料,整理了一下:(注意:整理得很乱且不具备完整性,可能对读者帮助并不大,慎入)。

今年中考,高考的数学都加难度了,谁让AI这么火呢?要想学习人工智能,数学能力是基础。应该说人工智能是建立在线性代数和概率论的基础上的。

一、数学基础

1.1:线性代数

重要概念:集合,标量,向量(一维数据,如:语音),矩阵(二维数据,如:灰度图像),张量(多维数据,如:RGB图像,视频)。

可以这么理解,线性代数是用虚拟的数字来表达真实物理世界的工具。

一个物体的多维表达,我们可以理解为一个向量,向量中每个值代表它的属性值。

范数(norm)表达单个向量的特征(求绝对值,平方和,最大值)表达了向量的尺度。
内积计算是表达两个向量的关系,可以表达相对位置,夹角,内积为0,表达正交。正交表达线性无关,互不影响,相互独立。

正交基:向量空间中的一组特殊向量。这些向量之间有垂直的关系。即内积为零。

内积可以用来表示2个向量间的关系,也就是说 采用元素乘积和,可以表达两者的关系。

线性空间中,向量代表N维空间中的一个点;空间中任意点可以唯一使用一个向量来表示。

向量中的值是我们找到在该维度下的正交基单位向量。

二维向量空间中,直角坐标系就是一个很好用的标准正交基。所以,(2,3)就代表在X軕上的2,0分量与Y辆上的0,3分量的交叉点。X,Y轴是标准的正交基。

两个点是否正交,在二维,三维的空间比较好理解,在更高维,

任何维空间中的点的变化,就是向量的线性变换,而描述对象变化或向量变化的数学语言就是矩阵

Ax = y

向量x 和 矩阵A 相乘,代表 向量x 经过 矩阵A 代表的变换,变成了向量 y。当然,这里要注意,相乘是有前提的,x的维度必须与A矩阵的2维中的一维相同。否则无法相乘。

对于向量与矩阵相乘,我们可以理解一个 N维的向量 被变成了 M维,实际上向量是发生了变化。但变化的原因是矩阵A代表的变换规律(因为A代表的是一种变化规律)。

矩阵不变的是特征值,有点象我们关系数据库中的字段,而变化的是特征的值,也就是行记录。

 短阵相乘就是将坐标系进行变换的方法。让原始坐标系的矩阵与变换的坐标系相乘。

矩阵的特征值和特征向量描述了变化的速度与方向。

总结一句话:我们可以用数学表达物理世界,静态的和动态的,可以用数字来表达物体的特征,物体间的关系。而这些表达的方法,会用到线性代数的知识。

1.2:概率论

对于我们看到的模型,实际上记录的就是一些权重。而权重就是我们讲的概率了。所以,概率论显然是深度学习重点要学习的概念。

重要概念:全概率公式,将复杂事件的概率求解,转化为在不同情况下发生的简单事件的概率求和。

在事件结果已确定的情况下(P(A)),推断各种假设发生的可能性(P(Bi|A))。这个理论是贝叶斯提出的,所以称之为贝叶斯公式:

这个公式非常重要,非常有用,我们来举例 说明:

有一种病在人群中的患病率是1%,其检查结果的可靠程度是95%,也就是得病的人95%会得到阳性结果,没得病的人95%会得到阴性结果。如果一个人检查的结果是阳性,那他得病的概率是多少?

检查结果是阳性,但实际上呢有95%可能是验错的,所以他得病的概率是:

计算所有验出阳性的人是:0.01 * 0.95 + 0.99 * 0.05  ,其中有病的人是:0.01 * 0.95

计算:0.01*0.95 / ( 0.01 * 0.95 + 0.99 * 0.05) = 0.16  也就是 16%

我在计算时,并未考虑贝叶斯公式。回过头来套用这个公式,可以发现:
P(A|Bi) * P(Bi),Bi 就是得病,A就是测出阳性。那就是  0.01 * 0.95

而分母中,计算的是 有病和无病的加总,无病但阳性的情况就是:0.99 * 0.05 ,

这样,刚好可以套到上面的公式,但说实话,并不好理解。不过,如果问题不止生病和不生病2种情况,那就需要用上面的公式了。

换成贝叶斯定理:

P(H):预先设定的假设成立的概率。这个叫先验概率。上例中:人群中得此病的概率  0.01

P(D|H):假设H成立的情况下,观察到的D的概率。这个叫似然概率。上例中:有病并且测试结果是阳性的概率 0.95

P(H|D):观测到结果D的前提下,假设成立H的概率。这个叫后验概率。上例中:观察到是阳性的前提下,是确切得病的概率。

有点绕脑,上面这个例子有助于理解。

贝叶斯定理可以用于在观测到结果的情况下,推断后验概率。这很有用,因为我们可以观测到一些结果,但因为结果产生是有前提的,所以,我们需要推测我们猜想的概率。就像上例中,我们可以有阳性检测的手段,但是,我们并不能100%确定它的准确性,那么,我们在已知推测总群体的概率前提下,我们可以推测出可能发生的概率。

对于频率学派,认定假设是客观存在的,不会改变的。只是我们观察者不知道。因此,在计算具体事件的概率时,要确定概率分布的参数,然后推算。

而贝叶斯学派则认为固定的先验分布并不存在,参数可能本身就是随机数,它会根据观察的结果,不断的去修正。这就和机器学习的训练方法是一致的,也就是我们需要通过数据,不断的去修正主观认识让它更加接近客观实际

机器学习的核心理论之一就是概率论,通过数据训练不断调整参数和修正假设。但因为数据还是有限的,所以必须要对概率进行预估。

概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。

最大似然估计就是尽量让训练数据获得最大的概率。
最大后验概率是是符合目前深度学习的思路,会根据结果去调整之前的假定,会认为假定是不正确,需要不断通过训练数据去修正。

概率质量函数:针对离散随机变量,比如:投骰子的每种结果可能出现的概率。如:两点,二项,泊松分布。

概密密度函数:针对连续的变量。如:正态,均匀,指数分布。

除了概率质量函数 / 概率密度函数之外,另一类描述随机变量的参数是其数字特征。数字特征是用于刻画随机变量某些特性的常数,包括数学期望(expected value)、方差(variance)和协方差(covariance)。

方差表达与预期值的差距,数字期望是均值,协方差是表示线型关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值