统计文本数据集的总字符数



我有一个数据框格式的数据集,第一列包含文本,第二列包含标签。我想计算数据集的字符总数。我实现了一个代码的总字数,但我不能采用它的字符。如果你能帮助我,我将不胜感激。

# To see the total number of words 
dt['text'].apply(lambda x: len(x.split(' '))).sum()
dt['text'].str.len().sum()

这将给出字符总数。你可以从这里查看str的文档(序列和索引的矢量化字符串函数)

您可以使用.str.len()来获取长度,即如下所示的字符总数

import pandas as pd
df = pd.DataFrame({'text':['A','BBB','CCCCC']})
print(df['text'].str.len())

输出
0    1
1    3
2    5
Name: text, dtype: int64

最新更新