数据集的唯一字符列表



我在数据帧中有一个数据集,我想查看字符总数和唯一字符列表。

至于字符总数,我已经实现了以下代码,它似乎运行良好

df["Preprocessed_Text"].str.len().sum()

你能告诉我如何获得一个包含唯一字符(不包括空格(的列表吗?

试试这个:

from string import ascii_letters
chars = set(''.join(df["Preprocessed_Text"])).intersection(ascii_letters)

如果你需要使用不同的字母表,那么只需将ascii_letters替换为你需要的任何字母。

如果你想要除了空格之外的每个字符,那么:

chars = set(''.join(df["Preprocessed_Text"]).replace(' ', ''))
unichars = list(''.join(df["Preprocessed_Text"]))
print(sorted(set(unichars), key=unichars.index))
unique = list(set([letter for letter in ''.join(df['Processed_text'].values) if letter != " "]))

相关内容

  • 没有找到相关文章