我已经用oligo和limma进行了Affymetrix数据分析。现在我需要对上调和下调的基因进行基因富集分析(在EnrichR上,通过搜索基因符号(。然而,当我对我的数据进行注释(使用clariomshumantranscriptcluster.db库,因为我100%确信数据属于人类细胞(并为每个探针ID找到相应的基因符号时,许多ID给出了";NA";价值观
我试过使用DAVID和Affymetrix.com转换工具,但都没有结果。在Affymetrix.com上读到这篇文章后,我感到非常困惑:;以";TC";参见TIGR小鼠基因索引。以";HT";(人类(或";ET";(其他物种(是来自表达基因解剖数据库(EGAD(的序列ID"因为我的ID都不一样,所以我有一些以";TC";,有些以";HT";还有一些只是一个数字。
我不确定我是否因为选择了错误的GeneChip或选择错误的NetAffx搜索而导致查询搜索错误;或者如果我应该在HT、TC和number之间分离不同的ID格式后进行3次不同的搜索。
这里有一种使用biomaRt
包查询ensembl数据库的方法。
library(biomaRt)
probes <- c("1007_s_at", "1053_at", "117_at",
"121_at", "1255_g_at", "1294_at",
"1316_at", "1320_at", "1405_i_at",
"1431_at")
mart <- biomaRt::useEnsembl(biomart="ensembl",
dataset="hsapiens_gene_ensembl")
biomaRt::getBM(attributes=c("hgnc_symbol", "ensembl_gene_id",
"affy_hg_u133_plus_2"),
filters = "affy_hg_u133_plus_2",
values = probes,
mart = mart)
##> hgnc_symbol ensembl_gene_id affy_hg_u133_plus_2
##> 1 CCL5 ENSG00000274233 1405_i_at
##> 2 DDR1 ENSG00000234078 1007_s_at
##> 3 DDR1 ENSG00000215522 1007_s_at
##> 4 DDR1 ENSG00000230456 1007_s_at
##> 5 DDR1 ENSG00000137332 1007_s_at
##> 6 PTPN21 ENSG00000070778 1320_at
##> 7 RFC2 ENSG00000049541 1053_at
##> 8 GUCA1A ENSG00000048545 1255_g_at
##> 9 GUCA1ANB ENSG00000287363 1255_g_at
##> 10 THRA ENSG00000126351 1316_at
##> 11 CYP2E1 ENSG00000130649 1431_at
##> 12 DDR1 ENSG00000204580 1007_s_at
##> 13 CCL5 ENSG00000271503 1405_i_at
##> 14 HSPA6 ENSG00000173110 117_at
##> 15 HSPA7 ENSG00000225217 117_at
##> 16 PAX8 ENSG00000125618 121_at
##> 17 UBA7 ENSG00000182179 1294_at
##> 18 MIR5193 ENSG00000283726 1294_at
取决于您对"许多ID";。有些ID指的是对照区,没有任何相关的基因符号,但这些ID并不多。如果没有任何特殊的理由使用limma&公司,为什么不求助于Affymetrix的免费转录组分析控制台(TAC(软件,该软件本机提供ID映射和其他几个功能?
https://www.thermofisher.com/it/en/home/life-science/microarray-analysis/microarray-analysis-instruments-software-services/microarray-analysis-software/affymetrix-transcriptome-analysis-console-software.html