我在pandas dataframe中具有数据。我需要在字符串之间提取以"影响因子"开头的字符串之间的所有内容,并以"&#"结尾。如果内容没有"影响因素:"我要在数据框架的那行中null
这是一排的示例数据。
保存到在线endnote&#添加到标记的列表&#影响因素:日记2和引文报告500&#其他信息& ids编号:ew5ur&ew5ur&#
>我希望在数据框中像以下内容一样的内容。日记2和引文报告500日记6和引文报告120期刊50和引文报告360日记30和引文报告120
嗨,您可以在此处使用正则表达式:
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x))
您可能也想剥离白色空间,在这种情况下可以使用:
result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:s*(.*?)s*&#',x))