r - 删除语料库中具有特定单词的行 - r - Removing rows with a specific word in Corpus 小贝子编程网

我有一个语料库，其中包含从互联网上抓取的多个文本(新闻文章)。

一些文本包含文章中使用的照片的描述。我想删除它。

我找到了一个关于这个主题的现有字符串，但它对我无济于事。请参阅链接：从包含多个文档的语料库中删除行

我想删除包含"照片文件"一词的每一行(大写)。此解决方案已发布：

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
for(j in seq(textVector)) {
newCorp<-textVector
newCorp[[j]] <- textVector[[j]][-grep("PHOTO",    textVector[[j]], ignore.case = FALSE)]
}

不过，这似乎对我不起作用。代码运行，但不会删除任何内容。

起作用的是：

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
newCorp <- VCorpus(VectorSource(textVector[-grep("PHOTO", textVector, 
ignore.case = FALSE)]))

但是这会删除包含该单词的每个文件，我不希望这样。

如果有人可以帮助我，将不胜感激。

加法：

以下是其中一个文本的示例：

[1] "头条新闻 |周三 4月 19， 2017 |英国夏令时下午3：53文件照片：人们走过英国伦敦金丝雀码头金融区的一个广场，2017年1月9日。路透社/迪伦·马丁内斯/File Photo伦敦根据英国国家统计局周三的最新估计，英国的经常账户赤字是其经济的弱点之一，在截至2012年的几年中比以前想象的要大。该赤字是发达经济体中最大的赤字之一，自6月英国脱欧公投以来一直是人们关注的焦点。英国央行行长马克·卡尼(Mark Carney)在公投前夕表示，英国依赖"陌生人的善意"，强调该国每年需要数百亿英镑的外国资金来平衡其账目。国家统计局表示2012年经常账户赤字现在占国内生产总值的4.4%，而之前的估计为3.7%。上月，英国国家统计局表示，英国的经常账户赤字在2016年最后三个月跌至GDP的2.4%，不到第三季度5.3%的一半。由于英国公司债券收益率自2012年以来明显下降，并在2016年年中触及新低。.MERUR00国家统计局还修改了早先对英国人储蓄的估计。2012年的家庭储蓄率从之前的8.3%上升到9.8%，2011年也有类似的上调。 2016年第四季度的比率尚未修订，为1963年以来的最低水平，为3.3%。以及将以前包含在家庭中的慈善机构的账户分开。近年来可能会对储蓄率产生类似的大幅修订。自2008年初以来创造的大约220万个新工作岗位中，约有40%属于自营职业者类别。

所以我想删除文件照片的句子(行)

假设最初文本包含在文件中input.txt. 原始文件如下：

THis is a text that contains a lot
of information
and PHOTO FILE.
Great!

my_text<-readLines("input.txt")
[1] "THis is a text that contains a lot" "of information"                     "and PHOTO FILE."                    "Great!"

如果去除杂散元素

blah[-grep("PHOTO FILE",blah,value = F,perl=T)]

你最终得到

[1] "THis is a text that contains a lot" "of information"                     "Great!"

r - 删除语料库中具有特定单词的行

相关内容

最新更新

热门标签：