使用txt获取信息

  • 本文关键字:信息 获取 txt 使用 r
  • 更新时间 :
  • 英文 :


我在R中有一个问题。我有一个Excel列,它的所有行都是由链接组成的。我想创建一个机器人或以某种方式,从该链接中获取信息(所有信息都是纯文本.txt(。你知道如何提取右侧栏中的信息和仪表吗?问候和感谢!。

我试着读.delim,但我遇到了这个问题。

read.delim("http://multimedia.globomatik.net/productsSheet/A0017969.txt")

read.table中的错误(file=file,header=header,sep=sep,quote=quote,:列数多于列名

另一方面,我尝试了:

read.txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt"))

但是很多线条都是为我创造的。你知道有什么方法可以连接这些线条吗?

谢谢!

如果只想将矢量中的文本行连接在一起,可以使用paste(x, collapse = "n")

最好定义一个简单的函数来读取url的内容并返回粘贴在一起的所有行:

get_txt <- function(link) paste0(readLines(link, warn = FALSE), collapse = "n")

你可以这样使用:

x <- get_txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt")
x
#> [1] "<div class="std especificaciones content-section section-2"><div class=
#> "column-left">ntttt<h3>General</h3>ntttt<table class="data-table" i
#> d="product-attribute-specs-table-1">nttttt<col width="25%" />nttt
#> tt<col />nttttt<tbody><tr>ntt                   ttt<th class="labe
#> l" data-attribute-code="brands">Marca</th>t<td class="data">WESTERN DIGITA
#> L </td>ntttttttt</tr><tr>ntt                   ttt<th class="lab
#> el" data-attribute-code="warranty">Garantía</th>t<td class="data">2 años
#>  de garantía</td>ntttttttt</tr><tr>ntt                   ttt<th 
#> class="label" data-attribute-code="part_number">Part Number</th>t<td class=
#> "data">WDBWLG0060HBK-EESN </td>ntttttttt</tr><tr>ntt ... <truncated>

你可以看到这是一个单一的文本字符串:

length(x)
#> [1] 1

最新更新