一、分类问题概述
对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。
从数学角度来说,分类问题可做如下定义:
已知集合: C=y1,y2,⋯,yn C = y 1 , y 2 , ⋯ , y n 和 I=x1,x2,⋯,xn I = x 1 , x 2 , ⋯ , x n ,确定映射规则 y=f(x) y = f ( x ) ,使得任意 xi∈I x i ∈ I 有且仅有 yj∈C y j ∈ C 一个使得 yj=f(xi) y j = f ( x i ) 成立。(不考虑模糊数学里的模糊集情况)
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
这里要着重强调,分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类,分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。
例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
二、 预备知识
2.1 条件概率公式
设A,B两个事件,P(B)>0,则在事件B发生条件下,事件A发生的条件概率为:
实例:盒子里面有黑色和白色两种颜色的模具,它们的比例是6:4(黑:白)。黑色模具全都是立方体,白色模具有一半是立方体一半是球体(5:5)。
假设摸到白球的事件为A,摸到黑球的事件为 A¯ A ¯ ,摸到立方体模具的事件为B,摸到球体模具的事件为 B¯ B ¯ 。
假设我伸手到盒子里摸到了一个立方体模具(事件B),那么这个模具是白色(事件A)的概率就是 P(A|B) P ( A | B ) 。
反过来,我们假设我已经知道摸到的模具是白色(事件A),那么这个模具是球体(事件 B¯ B ¯ )的概率就是 P(B¯|A) P ( B ¯ | A )
2.2 乘法公式
由条件概率公式得乘法公式:
推广:对于任何正数 n≥2 n ≥ 2 ,当 P(A1A2⋯An−1)>0 P ( A 1 A 2 ⋯ A n − 1 ) > 0 时,有
2.3 全概率公式
如果事件组 B1,B2,⋯,Bn B 1 , B 2 , ⋯ , B n 满足
- Bi∩Bj=∅ B i ∩ B j = ∅ , i≠j i ≠ j 且 P(Bi)>0 P ( B i ) > 0 且 i,j=1,2,⋯,n i , j = 1 , 2 , ⋯ , n
- B1∪B2∪⋯∪Bn=Ω B 1 ∪ B 2 ∪ ⋯ ∪ B n = Ω ,则称事件组 B1,B2,⋯,Bn B 1 , B 2 , ⋯ , B n 是样本空间 Ω Ω 的一个划分
设 B1B2⋯ B 1 B 2 ⋯ 是样本空间 Ω Ω 的一个划分,A为任一事件,则:
上式即为全概率公式.
全概率公式的意义在于,当直接计算 P(A) P ( A ) 较为困难,而 P(Bi),P(A|Bi) (i=1,2,⋯,n) P ( B i ) , P ( A | B i ) ( i = 1 , 2 , ⋯ , n ) 的计算较为简单时,可以利用全概率公式计算 P(A) P ( A ) 。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间 Ω Ω 的一个个划分 B1,B2,⋯,Bn B 1 , B 2 , ⋯ , B n ,这样事件A就被事件 AB1,AB2,⋯,ABn A B 1 , A B 2 , ⋯ , A B n 分解成了n部分,即 A=AB1+AB2+...