我试图只保留"Background"之后的文本,但我没有成功尝试这样做。例如,我有这样的注释:
05/2022: AB: 6/20/22 -我正在学习如何使用熊猫库。
背景:I'm trying to learn python.
如何使所有单元格只有背景注释?它应该看起来像这样:
背景:I'm trying to learn python.
请参阅下面我的代码:
import pandas as pd
df = pd.read_excel(r"C:UsersRDesktopPythonLibdata52022.xlsx")
comments = df["Comment"]
df['new_background'] = df["Comment"].str.split('Background:').str[0]
print(df["new_background"])
您应该提供一个数据示例。
也就是说,你应该这样做:
df['new_background'] = df["Comment"].str.replace(r'.*(?=Background:)',
'', regex=True)
或者,如果您想在缺少背景时使用NaN:
df['new_background'] = df["Comment"].str.extract(r'(Background:.*)')