关于单列上计算功能的问题

我有一个有关pandas/nltk问题的问题。

我的数据框看起来如下：

Name    Age     Text
Anne    23     "foo you"
Joan    20     "woo you"
Marie   28     "boo you"
John    31     "moo you"
Mark    37     "loo you"

我需要使用NLTK Python库来计算一个新列，该库看起来如下：

Name    Age     Text        Tokens
Anne    23    "foo you"      ['foo','you']
Joan    20    "woo you"      ['woo','you']
Marie   28    "boo you"      ['boo','you']
John    31    "moo you"      ['moo','you']
Mark    37    "loo you"      ['loo','you']

我正在使用以下代码：

df['tokens'] = nltk.word_tokenize(df['text'])

，但我会遇到一个错误，因为它每行存储一个令牌，而不是其相应行上的所有令牌。

欢迎任何帮助。

非常感谢您。

df['Tokens'] = df['Text'].str.replace('"', '').apply(nltk.word_tokenize)

    Name    Age Text        Tokens
0   Anne    23  "foo you"   ['foo', 'you']
1   Joan    20  "woo you"   ['woo', 'you']
2   Marie   28  "boo you"   ['boo', 'you']
3   John    31  "moo you"   ['moo', 'you']
4   Mark    37  "loo you"   ['loo', 'you']

相关内容

最新更新

热门标签：