小贝子编程

提取熊猫列中两个标记之间的文本

本文关键字：两个之间文本熊猫提取 python regex pandas
更新时间 : 2023-09-21
英文 : extract text between two markers in a pandas column

我有一个pandas列，其中包含以下数据：

function(tb3696,[1,1,1,0],'glpK',"ATP:glycerol 3-phosphotransferase")
function(tb3255,[1,1,1,0],'manA',"mannose-6-phosphate isomerase")
function(tb3441,[1,1,1,0],'mrsA',"phosphoglucomutase or phosphomannomutase")
function(tb118,[1,1,1,0],'oxcA',"oxalyl-CoA decarboxylase")

我需要从上面的专栏中提取以下文本：

tb3696
tb3255
tb3441
tb118

我尝试了以下操作，但不起作用：

df[0].str.extract('tion( (.+?) ,[',expand=False)

您可以使用

df[0].str.extract(r'((w+),', expand=False)

请参阅regex演示。

正则表达式匹配(和,字符之间的一个或多个字母/数字/下划线。由于Series.str.extract需要正则表达式模式中的捕获组，因此w+用两个unscape捕获括号括起来。

提取熊猫列中两个标记之间的文本

相关内容

最新更新

热门标签：