写在前面的话
这段时间做毕业论文-贝叶斯分类器。为了写它的一个优化,着实读了一些文献,感慨知网文献难懂程度,对于一些基础的数学概率公式讲解非常系统化、规范化,但也造成如我等萌新阅读起来困难异常。总结一下就是如下过程:
朴素贝叶斯
朴素贝叶斯算法作为机器学习十大入门算法之一,网络上和其相关的视频、文字资料可以说是铺天盖地了,这里笔者偷个懒,不做详细解读。给几认为将的不错的博客链接
朴素贝叶斯分类:原理
机器学习 | 算法笔记- 朴素贝叶斯(Naive Bayesian)
朴素贝叶斯中的出现的问题
朴素贝叶斯最大的问题在其“朴素”二字,何为“朴素”?“朴素”=“不相关”。朴素贝叶斯中有一个极其大胆的假设:所有条件属性互不条件相关。显然,在实际应用中,这个条件是难以达到的。于是乎,各路大佬开始改进它。
条件属性集合里面有相关的属性,那取其中不相关的属性集合作为新的属性集合就好啦!
于是乎,粗糙集登场了(其实还有很多方法,就笔者知道的,主成分分析,方差分析都是数学上不错的属性约减算法)
粗糙集
什么是粗糙集
有点啰嗦,但希望可以看完
笔者认为粗糙集主要功能就是用现有的不完全知识去描绘某样事物。
比如,如果社会对成功人士的定义为:有一个女朋友and一份体面工作。那么如果在已知小明拥有一个女朋友and某大厂干着体面工作的情况下,不需要任何粗糙集知识就可以判断他是一个成功人士。但对于小刚,假设我们只知道他qq天天响特别关心提示音and每天都西装革履,这个时候,我们没有办法一口咬定,小刚也是成功人士,也是在这个时候,粗糙集派上用场。
粗糙集理论
不写了,我知道你们不想看,直接上例子!!!
粗糙集实战
编号 | α 1 \alpha_1 α1 | α 2 \alpha_2 α2 | α 3 \alpha_3 α3 | α 4 \alpha_4 α4 | α 7 \alpha_7 α7 |
---|---|---|---|---|---|
a | 1 | 1 | 0 | 0 | 0 |
b | 1 | 1 | 1 | 1 | 0 |
c | 0 | 0 | 1 | 1 | 1 |
d | 1 | 1 | 0 | 1 | 0 |
e | 0 | 0 | 1 | 1 | 1 |
f | 1 | 1 | 0 | 0 | 0 |
g | 1 | 1 | 1 | 0 | 0 |
h | 0 | 0 | 0 | 1 | 1 |
i | 1 | 1 | 0 | 0 | 0 |
j | 1 | 1 | 0 | 0 | 0 |
我们要干什么?
答:判断哪个属性对于分类是多余的(有他没他都一样)。
论域U={a,b,c,d,e,f,g,h,i,j}条件属性集合A={
α 1 \alpha_1 α1, α 2 \alpha_2 α2, α 3 \alpha_3 α3, α 4 \alpha_4 α4}决策属性B={
α 7 \alpha_7 α7} 。
用符号 “U/IND(属性)” 表示把原来全体成员按照属性划分之后的结果。
例如: U / I N D ( α 1 U/IND(\alpha_1 U/IND(α1)={
{a,b,f,g,j,d,i}{c,e,h}}:其中{a,b,f,g,d,i}的属性 α 1 \alpha_1 α1值都是1,而{c,e,h}的属性 α 1 \alpha_1 α1值都是0.同理可得:
可以按照一个属性分,那多个呢?可以观察到a、f、i、j无论按照 α 1 \alpha_1 α1 α 2 \alpha_2 α2 α 3 \alpha_3 α3 α 4 \alpha_4 α4中的哪一种属性去分,都在同一个一个{ }里面,这样的“好兄弟”,按照 α 1 \alpha_1 α1 α 2 \alpha_2 α2 α 3 \alpha_3 α3 α 4 \alpha_4 α4同样是分一类的。
这个时候我们就得到了5大类,我们将其称为“知识”,它们分别是
下面解释一个出现在很多其他博客和论文,但具体计算方式比较隐晦的数学符号: p o s A ( B ) pos_A(B) posA(B).
p o s A ( B ) pos_A(B) posA(B)
这个符号叫作正域,其值和“下近似”相等。最初 p o s A ( B ) pos_A(B)