通过熊猫查找特定文本



我正试图找到的方法

完成 第一步(可能计数某个文本的所有出现次数(例如;神&";,或";仏教"(在一个json或csv 中

import pandas as pd
pd.options.display.max_rows = 10000
# read file
df = pd.read_csv("/mypath/results.csv")
# add search parameters 
df['text_of_interest_status']=df['text'].str.count('神')
df=df[df['text_of_interest_status']==1]
# print search parameters
df['text'].str.count('神')

(如果可能的话(

打开:第二步(创建一个包含所有发生行的新文件(json或csv(并保存。

我的csv文件是:csvfile

2(至于第二步,我不知道如何设置它,以便收集包含文本的行。我想最后一部分会是这样的吗?

import pandas as pd
from pandas.core.frame import DataFrame
# <some magic inbetween>
# print(new_df)
new_df.to_csv("/myfilepath/mynewfile.csv")

・・・

编辑:(07/18(

不能将数据帧分配给pd.Series函数。

这样做:

df = pd.read_csv("/myfilepath/myfile.csv")
df['text_of_interest_status']=df['text'].str.count('神')
df['text'].str.count('神')
Out[4]: 
0     1
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     1
10    0
11    0
Name: text, dtype: int64

编辑:

如果你只想过滤有感兴趣的文本的行,你可以这样做:

df=df[df['text_of_interest_status']==1]

最新更新