python基因差异分析_差异表达基因的分析（2）

最新推荐文章于 2024-06-30 03:31:29 发布

weixin_39633113

最新推荐文章于 2024-06-30 03:31:29 发布

阅读量2.9k

点赞数

文章标签： python基因差异分析

本文详细介绍了在Python环境中，利用Bioconductor的limma包进行基因差异表达分析的步骤。从数据预处理到差异表达基因的筛选，包括设置试验设计、创建对比矩阵、结果提取和可视化。通过示例数据GSE11787，展示了如何根据P值、差异倍数和平均表达差异值来确定差异基因，并进一步过滤和排序，以便进行后续的GO注释和基因网络分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

应学生及个别博友的要求，尽管专业博文点击率和反应均很差，但在去San Diego参加PAG会议之前，还是抽时间给出【R高级教程】的第二专题。专题一给出了聚类分析的示例，本专题主要谈在表达谱芯片分析中如何利用Bioconductor鉴定差异表达基因。

鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达，它属于监督性分类的一种。在鉴定差异表达基因以前，一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类)，因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多，但目前运用最广泛的Bioconductor包是limma。

本专题示例依然来自GEO数据库中检索号为GSE11787 的Affymetrix芯片的数据，数据介绍参阅专题一。>library(limma)

>design

这个是根据芯片试验设计，对表型协变量的水平进行design，比如本例中共有6张芯片，前3张为control对照组，后3张芯片为实验处理组，用1表示对照组，用2表示处理组。其他试验设计同理，比如2*2的因子设计试验，如果每个水平技术重复3次，那么可以表示为：design colnames(design)

>fit

>contrast.matrix

>fit

>fit2