小贝子编程

需要在熊猫数据框架中的两个字符串之间提取所有内容

我在pandas dataframe中具有数据。我需要在字符串之间提取以"影响因子"开头的字符串之间的所有内容，并以"＆amp;＃"结尾。如果内容没有"影响因素："我要在数据框架的那行中null

这是一排的示例数据。

保存到在线endnote＆amp;＃添加到标记的列表＆amp;＃影响因素：日记2和引文报告500＆amp;＃其他信息＆amp; ids编号：ew5ur＆ew5ur＆amp;＃

我希望在数据框中像以下内容一样的内容。日记2和引文报告500日记6和引文报告120期刊50和引文报告360日记30和引文报告120

嗨，您可以在此处使用正则表达式：

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))

您可能也想剥离白色空间，在这种情况下可以使用：

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:s*(.*?)s*&#',x))

相关内容