r - 删除语料库中具有特定单词的行



我有一个语料库,其中包含从互联网上抓取的多个文本(新闻文章)。

一些文本包含文章中使用的照片的描述。我想删除它。

我找到了一个关于这个主题的现有字符串,但它对我无济于事。请参阅链接:从包含多个文档的语料库中删除行

我想删除包含"照片文件"一词的每一行(大写)。此解决方案已发布:

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
for(j in seq(textVector)) {
newCorp<-textVector
newCorp[[j]] <- textVector[[j]][-grep("PHOTO",    textVector[[j]], ignore.case = FALSE)]
}

不过,这似乎对我不起作用。代码运行,但不会删除任何内容。

起作用的是:

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
newCorp <- VCorpus(VectorSource(textVector[-grep("PHOTO", textVector, 
ignore.case = FALSE)]))

但是这会删除包含该单词的每个文件,我不希望这样。

如果有人可以帮助我,将不胜感激。

加法:

以下是其中一个文本的示例:

[1] "头条新闻 |周三 4月 19, 2017 |英国夏令时下午3:53文件照片:人们走过英国伦敦金丝雀码头金融区的一个广场,2017年1月9日。路透社/迪伦·马丁内斯/File Photo伦敦 根据英国国家统计局周三的最新估计,英国的经常账户赤字是其经济的弱点之一,在截至2012年的几年中比以前想象的要大。 该赤字是发达经济体中最大的赤字之一,自6月英国脱欧公投以来一直是人们关注的焦点。英国央行行长马克·卡尼(Mark Carney)在公投前夕表示,英国依赖"陌生人的善意",强调该国每年需要数百亿英镑的外国资金来平衡其账目。 国家统计局表示2012年经常账户赤字现在占国内生产总值的4.4%,而之前的估计为3.7%。上月,英国国家统计局表示,英国的经常账户赤字在2016年最后三个月跌至GDP的2.4%,不到第三季度5.3%的一半。 由于英国公司债券收益率自2012年以来明显下降,并在2016年年中触及新低。.MERUR00国家统计局还修改了早先对英国人储蓄的估计。2012年的家庭储蓄率从之前的8.3%上升到9.8%,2011年也有类似的上调。 2016年第四季度的比率尚未修订,为1963年以来的最低水平,为3.3%。 以及将以前包含在家庭中的慈善机构的账户分开。近年来可能会对储蓄率产生类似的大幅修订。自2008年初以来创造的大约220万个新工作岗位中,约有40%属于自营职业者类别。

所以我想删除文件照片的句子(行)

假设最初文本包含在文件中input.txt. 原始文件如下:

THis is a text that contains a lot
of information
and PHOTO FILE.
Great!

my_text<-readLines("input.txt")
[1] "THis is a text that contains a lot" "of information"                     "and PHOTO FILE."                    "Great!"                            

如果去除杂散元素

blah[-grep("PHOTO FILE",blah,value = F,perl=T)]  

你最终得到

[1] "THis is a text that contains a lot" "of information"                     "Great!"                            

最新更新