将DNA序列翻译成熊猫数据框架内的蛋白质序列



我有一个熊猫数据帧,其中包含DNA序列和基因名称。我想将DNA序列翻译成蛋白质序列,并将蛋白质序列存储在一个新的列中。

数据帧看起来像:

DNA 基因名
ATGGATAAG 基因_1
ATGCAGGAT 基因_2

我建议使用熊猫。DataFrame.apply.

类似于:

df['protein'] = df['DNA'].apply(lambda x: Seq(x).translate(), axis=1)

由于您想要翻译"DNA";列,您可以使用列表理解:

df['protein'] = [''.join(Seq(sq).translate()) for sq in df['DNA']]

输出:

DNA gene_name protein
0  ATGGATAAG    gene_1     MDK
1  ATGCAGGAT    gene_2     MQD

最新更新