需要在熊猫数据框架中的两个字符串之间提取所有内容



我在pandas dataframe中具有数据。我需要在字符串之间提取以"影响因子"开头的字符串之间的所有内容,并以"&#"结尾。如果内容没有"影响因素:"我要在数据框架的那行中null

这是一排的示例数据。

保存到在线endnote&#添加到标记的列表&#影响因素:日记2和引文报告500&#其他信息& ids编号:ew5ur&ew5ur&#

>

我希望在数据框中像以下内容一样的内容。日记2和引文报告500日记6和引文报告120期刊50和引文报告360日记30和引文报告120

嗨,您可以在此处使用正则表达式:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))

您可能也想剥离白色空间,在这种情况下可以使用:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:s*(.*?)s*&#',x))

相关内容

  • 没有找到相关文章

最新更新