我有一个熊猫数据帧,其中包含DNA序列和基因名称。我想将DNA序列翻译成蛋白质序列,并将蛋白质序列存储在一个新的列中。
数据帧看起来像:
DNA | 基因名 |
---|---|
ATGGATAAG | 基因_1 |
ATGCAGGAT | 基因_2 |
我建议使用熊猫。DataFrame.apply.
类似于:
df['protein'] = df['DNA'].apply(lambda x: Seq(x).translate(), axis=1)
由于您想要翻译"DNA";列,您可以使用列表理解:
df['protein'] = [''.join(Seq(sq).translate()) for sq in df['DNA']]
输出:
DNA gene_name protein
0 ATGGATAAG gene_1 MDK
1 ATGCAGGAT gene_2 MQD