原标题:你的p值,进行FDR校正了吗?
在生信分析中,隔三差五地就需要和p值探讨是否显著差异,还要搬出FDR对p值进行校正。让每个基因根据p值大小从小到大排个队,拿个号牌,然后把自己的p值乘上总基因数,再除以自己号牌上的数就是FDR校正后的p值啦。这个过程用数学语言表示为:
其中,q-valuei是校正后的p值,length(p)是总基因数,rank(p)是每个基因排队的号牌。
那么,为什么要用这个公式完成校正呢?且听小锐从原理说起。
寻找差异基因的漫漫长路,从假设开始……
我们在处理宏基因组差异基因的选择时,需要对两个样本的每个基因进行一次假设检验。如果我们有m个基因,那么我们就要做m次假设检验。每一次的假设检验的零假设H0为:两个样本的这个基因没有显著性差异。其中有m0个零假设是正确的,即这个基因在两个样本中确实没有显著性差异;但有m1=m-m0个零假设是错误的,即两个样本的这个基因是有显著性差异。m次检验之后,被拒绝的零假设的个数记为R。为了方便记忆,可用一张表格来表示假设检验的结果:
m次假设检验的结果
此时,我们需要多考虑一点:找到的“差异基因”里面,是否有找错了的呢?
为了解决这一问题,统计学家提出了控制错误率的标准。其中,Benjamini和Hochberg(1995)提出的FDR准则最为流行,它的标准相对来说更宽泛,在实际应用中能够获得更大的功效。也就是说,通过这种方式,我们可以在错误率很低的情况下找到真正有差异的基因。
根据“m次假设验证的结果”(记性不好的童鞋可以翻看前面的表格),我们可以得到FDR准则,即要求控制错误拒绝率。令Q=V / (V+S),它表示被错误拒绝的零假设数目占所有被拒绝的零假设数目的比例。Q也是一个不可观测的随机变量。定义FDR如下: