使用 R 对数据帧中的文本列进行词干提取



>我有一个具有此结构的数据帧:

#Load lexicon
Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";") 

"LexiconFrancais.csv"的结构是这样的:

French Translation (Google Translate);Positive;Negative
un dos;0;0
abaque;0;0
abandonner;0;1
abandonné;0;1
abandon;0;1
se calmer;0;0
réduction;0;0
abba;1;0
abbé;0;0
abréger;0;0
abréviation;0;0

> Lexicon_DF
V1       V2       V3
1     French Translation (Google Translate) Positive Negative
2                                    un dos        0        0
3                                    abaque        0        0
4                                abandonner        0        1
5                                 abandonné        0        1
6                                   abandon        0        1
7                                 se calmer        0        0
8                                 réduction        0        0
9                                      abba        1        0
10                                     abbé        0        0
11                                  abréger        0        0
12                              abréviation        0        0

我尝试对数据帧的第一列进行词干,为此我做到了:

Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')

但是在此命令之后,我只找到Lexicon_DF数据帧中的第一列,另外两列消失了。

> Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
> Lexicon_DF
[1] "French Translation (Google Translate)" "un dos"                                "abaqu"                                
[4] "abandon"                               "abandon"                               "abandon"                              
[7] "se calm"                               "réduct"                                "abba"                                 
[10] "abbé"                                  "abreg"                                 "abrévi" 

我怎样才能做缺少其他两列的词干提取?

谢谢

您正在尝试将Lexicon_DF的全部内容替换为wordStem的o/p-

试试这个:

Lexicon_DF$V1 <-SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')

最新更新