如何在 R 中通过 Web 检测远程文件夹中新添加的文件?



如何编写在服务器上运行的 R 脚本,该脚本将检测何时在网络上的远程文件夹中添加新的 CSV 文件(或其他特定格式(,并自动下载它?

示例文件夹:https://ftp.ncbi.nlm.nih.gov/pub/pmc/

一旦在此文件夹中添加了新的CSV文件,我想立即下载它以在本地处理它。

我知道OP正在寻找一个"事件侦听器"来监视文件服务器上的更改,但是必须从远程计算机发送一些消息以通知您的计算机更改。如果您无法控制文件服务器,则让它向您发送消息的唯一方法是首先向它发送请求。这意味着唯一可用的通用"事件侦听器"是通过间歇性轮询服务器来工作的侦听器。

根据轮询的频率,这应该可以很好地用作事件侦听器。作为类比,许多种类的蝙蝠通过发出间歇性的超声波脉冲并倾听反应来捕猎。这是一种间歇性轮询形式,效果很好,足以使它们保持活力。

这确实意味着必须在您自己的计算机上在后台运行某种软件。此处的两个选项是使用计划间歇性运行 R 脚本,或者在后台运行在轮询之间循环并暂停的 R 脚本。

从注释中可以看出,OP 只想下载添加到服务器的任何文件,而不是在程序首次运行时创建现有文件的副本。这意味着必须将文件存储在本地,列出上次检查时 ftp 目录的内容,然后将其与 ftp 目录的当前内容进行比较,下载任何新文件以及更新内容记录。

这里有一个函数可以做到这一点。首次运行它时,它将创建一个以托管 url 命名的新本地目录和一个包含该点目录列表的.csv文件。在此之后对该函数的后续调用将比较本地和远程目录的内容并下载任何新文件:

local_mirror <- function(url, root_dir = path.expand("~/"), silent = FALSE)
{
if(substring(root_dir, nchar(root_dir), nchar(root_dir)) != "/")
root_dir <- paste0(root_dir, "/")
content <- rvest::html_nodes(xml2::read_html(url), "a")
links <- rvest::html_attr(content, "href")
links <- grep("/", links, invert = TRUE, value = TRUE)
rel_path <- strsplit(url, "//")[[1]][2]
mirror_path <- paste0(root_dir, rel_path)
if(!dir.exists(mirror_path))
{
build_path <- root_dir
for(i in strsplit(rel_path, "/")[[1]])
{
build_path <- paste0(build_path, i, "/")
dir.create(build_path)
}
write.csv(links, paste0(mirror_path, ".mirrordat.csv"))
}
records <- read.csv(paste0(mirror_path, ".mirrordat.csv"), stringsAsFactors = FALSE)
current_files <- records$x
n_updated <- 0
if(!silent) cat("Updating files - please wait")
for(i in seq_along(links))
{
if(!(links[i] %in% current_files))
{
download.file(paste0(url, links[i]), paste0(mirror_path, links[i]))
n_updated <- n_updated + 1
}
}
if(!silent) message(paste("Downloaded", n_updated, "files"))
write.csv(links, paste0(mirror_path, ".mirrordat.csv"))
}

要在你的情况下运行该函数,您只需运行:

local_mirror("https://ftp.ncbi.nlm.nih.gov/pub/pmc/")

要将其作为后台的常量"事件监视器"运行,您可以将其放置在如下所示的循环函数中:

listen_for_changes <- function(url, poll_every = 5, silent = TRUE)
{
repeat
{
local_mirror(url, silent = silent)
Sys.sleep(poll_every)
}
}

您将运行:

listen_for_changes("https://ftp.ncbi.nlm.nih.gov/pub/pmc/")

不久前我遇到了类似的问题,为此我写了一个(有点(名为repchkdl()的综合函数,现在我已将其捆绑到一个小R包中。

这是其Github存储库的链接。

它在许多方面与 @Allan Cameron 建议的解决方案相似,并提供了额外的选项来微调远程 URL 的扫描方式(手动/自动选项(、文件的下载方式(例如,使用正则表达式过滤(和迭代频率 + 限制(例如,每 2 分钟扫描一次,总共重复两次,然后退出(等。

用法示例:

test <- repchkdl(inpurl = "ftp://speedtest.tele2.net/upload/", 
inpregex = ".txt$", autoscan = "y", autodl = "y", inpwait = 10,
scanlim = 2)

这将自动从URLftp://speedtest.tele2.net/upload/下载(autoscan = "y"autodl = "y"(所有以.txt(inpregex = ".txt$"(结尾的文件,并每10秒(inpwait = 10(检查一次更新。该功能将在退出前重新检查两次(scanlim = 2(。文件名的向量将保存到对象test

编辑:该软件包已完全检修,并具有其他功能,包括静音模式操作。存储库位置保持不变。函数调用略有变化,如下所示(作为示例(:

test <- repchkdl(url = "ftp://ftp.swfwmd.state.fl.us/pub/usf/", 
usr = "anonymous", pwd = "exampleuser@example.com",
scanlim = 2, wait = 2, verbosity = TRUE)
head(test)
#                      flinks   fsizes dlstats
# 1        SWFWMD_May2020.txt 25321197 SUCCESS
# 2 USF_SCADA_AM_20200517.csv  2322041 SUCCESS
# 3 USF_SCADA_AM_20200518.csv  2321932 SUCCESS
# 4 USF_SCADA_AM_20200519.csv  2323118 SUCCESS
# 5 USF_SCADA_AM_20200520.csv  2322689 SUCCESS
# 6 USF_SCADA_AM_20200521.csv  2322243 SUCCESS

最新更新