我有一个有关pandas/nltk问题的问题。
我的数据框看起来如下:
Name Age Text
Anne 23 "foo you"
Joan 20 "woo you"
Marie 28 "boo you"
John 31 "moo you"
Mark 37 "loo you"
我需要使用NLTK Python库来计算一个新列,该库看起来如下:
Name Age Text Tokens
Anne 23 "foo you" ['foo','you']
Joan 20 "woo you" ['woo','you']
Marie 28 "boo you" ['boo','you']
John 31 "moo you" ['moo','you']
Mark 37 "loo you" ['loo','you']
我正在使用以下代码:
df['tokens'] = nltk.word_tokenize(df['text'])
,但我会遇到一个错误,因为它每行存储一个令牌,而不是其相应行上的所有令牌。
欢迎任何帮助。
非常感谢您。
df['Tokens'] = df['Text'].str.replace('"', '').apply(nltk.word_tokenize)
Name Age Text Tokens
0 Anne 23 "foo you" ['foo', 'you']
1 Joan 20 "woo you" ['woo', 'you']
2 Marie 28 "boo you" ['boo', 'you']
3 John 31 "moo you" ['moo', 'you']
4 Mark 37 "loo you" ['loo', 'you']