我在数据帧中有一个数据集,我想查看字符总数和唯一字符列表。
至于字符总数,我已经实现了以下代码,它似乎运行良好
df["Preprocessed_Text"].str.len().sum()
你能告诉我如何获得一个包含唯一字符(不包括空格(的列表吗?
试试这个:
from string import ascii_letters
chars = set(''.join(df["Preprocessed_Text"])).intersection(ascii_letters)
如果你需要使用不同的字母表,那么只需将ascii_letters
替换为你需要的任何字母。
如果你想要除了空格之外的每个字符,那么:
chars = set(''.join(df["Preprocessed_Text"]).replace(' ', ''))
unichars = list(''.join(df["Preprocessed_Text"]))
print(sorted(set(unichars), key=unichars.index))
unique = list(set([letter for letter in ''.join(df['Processed_text'].values) if letter != " "]))