用R提取短语

我正在尝试提取情感极性以进行电影审查，因此，对于标记的文本（使用Treetagger），我想提取所有标签的Bi -gram（adv -ver -ver）：pper）或（ver：pres -adj）。例如，在下面的示例中提取的短语列表是：bien suivi，est效率。

您可以提供一些帮助吗？

预先感谢您

Database <- read.table("exp.txt", header = FALSE)
Database

          V1       V2         V3
1     Toujours      ADV   toujours
2         bien      ADV       bien
3        suivi VER:pper     suivre
4          par      PRP        par
5          mon  DET:POS        mon
6   conseiller      NOM conseiller
7          Bon      NAM  <unknown>
8      accueil      NOM    accueil
9            ,      PUN          ,
10          ma  DET:POS        mon
11 conseillère      NOM conseiller
12         est VER:pres       être
13    efficace      ADJ   efficace
14          et      KON         et
15           à      PRP          à
16          l'  DET:ART         le
17      écoute      NOM     écoute
18           .

我们可以使用 dplyr来完成您的需求：

library(dplyr)
Database %>% 
    mutate(NV1 = lead(V1), NV2 = lead(V2)) %>% 
    filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>%
    transmute(result = paste(V1, NV1))
#       result
#   bien suivi
# est efficace

请注意，这不是很可扩展的，因为您必须键入所需的任何条件，但可以开始使用，并且可能适合您的需求

相关内容

最新更新

热门标签：