python 相关性fdr矫正_你的p值,进行FDR校正了吗?

本文介绍了在生物信息学分析中,为何需要对p值进行FDR(False Discovery Rate)校正,详细阐述了FDR校正的原理和计算公式,并提供了Python中实现FDR校正的示例。通过控制错误拒绝率,确保在寻找差异基因时,降低错误发现的比例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原标题:你的p值,进行FDR校正了吗?

在生信分析中,隔三差五地就需要和p值探讨是否显著差异,还要搬出FDR对p值进行校正。让每个基因根据p值大小从小到大排个队,拿个号牌,然后把自己的p值乘上总基因数,再除以自己号牌上的数就是FDR校正后的p值啦。这个过程用数学语言表示为:

其中,q-valuei是校正后的p值,length(p)是总基因数,rank(p)是每个基因排队的号牌。

那么,为什么要用这个公式完成校正呢?且听小锐从原理说起。

寻找差异基因的漫漫长路,从假设开始……

我们在处理宏基因组差异基因的选择时,需要对两个样本的每个基因进行一次假设检验。如果我们有m个基因,那么我们就要做m次假设检验。每一次的假设检验的零假设H0为:两个样本的这个基因没有显著性差异。其中有m0个零假设是正确的,即这个基因在两个样本中确实没有显著性差异;但有m1=m-m0个零假设是错误的,即两个样本的这个基因是有显著性差异。m次检验之后,被拒绝的零假设的个数记为R。为了方便记忆,可用一张表格来表示假设检验的结果:

m次假设检验的结果

此时,我们需要多考虑一点:找到的“差异基因”里面,是否有找错了的呢?

为了解决这一问题,统计学家提出了控制错误率的标准。其中,Benjamini和Hochberg(1995)提出的FDR准则最为流行,它的标准相对来说更宽泛,在实际应用中能够获得更大的功效。也就是说,通过这种方式,我们可以在错误率很低的情况下找到真正有差异的基因。

根据“m次假设验证的结果”(记性不好的童鞋可以翻看前面的表格),我们可以得到FDR准则,即要求控制错误拒绝率。令Q=V / (V+S),它表示被错误拒绝的零假设数目占所有被拒绝的零假设数目的比例。Q也是一个不可观测的随机变量。定义FDR如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值