python 相关性fdr矫正_你的p值，进行FDR校正了吗？

最新推荐文章于 2025-05-22 12:41:16 发布

原创

最新推荐文章于 2025-05-22 12:41:16 发布 · 4.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python 相关性fdr矫正

本文介绍了在生物信息学分析中，为何需要对p值进行FDR（False Discovery Rate）校正，详细阐述了FDR校正的原理和计算公式，并提供了Python中实现FDR校正的示例。通过控制错误拒绝率，确保在寻找差异基因时，降低错误发现的比例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原标题：你的p值，进行FDR校正了吗？

在生信分析中，隔三差五地就需要和p值探讨是否显著差异，还要搬出FDR对p值进行校正。让每个基因根据p值大小从小到大排个队，拿个号牌，然后把自己的p值乘上总基因数，再除以自己号牌上的数就是FDR校正后的p值啦。这个过程用数学语言表示为：

其中，q-valuei是校正后的p值，length(p)是总基因数，rank(p)是每个基因排队的号牌。

那么，为什么要用这个公式完成校正呢？且听小锐从原理说起。

寻找差异基因的漫漫长路，从假设开始……

我们在处理宏基因组差异基因的选择时，需要对两个样本的每个基因进行一次假设检验。如果我们有m个基因，那么我们就要做m次假设检验。每一次的假设检验的零假设H0为：两个样本的这个基因没有显著性差异。其中有m0个零假设是正确的，即这个基因在两个样本中确实没有显著性差异；但有m1=m-m0个零假设是错误的，即两个样本的这个基因是有显著性差异。m次检验之后，被拒绝的零假设的个数记为R。为了方便记忆，可用一张表格来表示假设检验的结果：

m次假设检验的结果

此时，我们需要多考虑一点：找到的“差异基因”里面，是否有找错了的呢？

为了解决这一问题，统计学家提出了控制错误率的标准。其中，Benjamini和Hochberg(1995)提出的FDR准则最为流行，它的标准相对来说更宽泛，在实际应用中能够获得更大的功效。也就是说，通过这种方式，我们可以在错误率很低的情况下找到真正有差异的基因。

根据“m次假设验证的结果”(记性不好的童鞋可以翻看前面的表格)，我们可以得到FDR准则，即要求控制错误拒绝率。令Q=V / (V+S)，它表示被错误拒绝的零假设数目占所有被拒绝的零假设数目的比例。Q也是一个不可观测的随机变量。定义FDR如下：