如何在批量RNA-seq数据中选择高度可变的基因



作为预处理步骤,我需要从大量RNA-seq数据中选择前1000个高度可变的基因(行(,该数据包含100个不同样本(列(中的约60k个基因。列值已包含三元组的平均值。该表包含FPKM中的归一化值(注意:我无法访问原始计数,也无法使用常见的R包,因为这些包将原始计数作为输入。(在这种情况下,选择前1000个可变基因的最佳方法是什么?

我曾尝试使用rowSums((函数过滤出基因(去除行和值较低的基因(,并将其从60k基因缩小到10K基因,但我不确定这是否是选择高度可变基因的正确方法。欢迎提供任何意见。

行和是第一个过滤步骤。在此之后,您的数据将被log2foldchangecutoff和padjst值丢弃(0.05或o.o1取决于您的目标(。您可以使用不同的行和截止值重复此路径以查看结果。我个人丢弃行和零

最新更新