2012-10-17 31 views
1

我想获得此地址提供的所有文件的列表:http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/ (NOAA的公开数据)。检索网址中的文件列表

这将是某种特定URL的“list.files”。 我开始看看RCurl,但我能得到的只是URL的HTML代码。

+0

我得到的是纯文本文件,所有的数据。你是如何获得HTML代码的? –

+0

我用这个(http://stackoverflow.com/questions/5227444/recursively-ftp-download-then-extract-gz-files)作为基础。 – user1752610

回答

4

在这种情况下,你可以简单地使用readHTMLTable

readHTMLTable("http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/", 
       skip.rows=1:2)[[1]]$Name -> file.list 

然后创建的路径列表:

paste("http://www1.ncdc.noaa.gov/pub/data/cmb/drought/weekly-palmers/2005/", 
     file.list[!is.na(file.list)], sep="") -> path.list 
+0

谢谢!这正是我期待的! – user1752610