1
考虑一个包含许多下载数据链接的网页。从HTML中选择下载链接
我想选择的链接“R”的数据格式。目标是将它们与页面的源代码隔离(在我登录后)。
conn = url("http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/35536?
searchSource=find-analyze-home&sortBy=&q=GSS")
html_code <- readLines(conn)
close(conn)
html_code
的html_code
结果由不在R控制台可见的HTML代码显然隔离线的千,即使数据被正确地下载。 也就是说如果我将控制台显然空的板子复制到文本编辑器中,则HTML代码可见。正因为如此,我很难确定我需要的信息。
如何更好地可视化下载的数据?
这可能是有用的:http://stackoverflow.com/questions/1844829/how-can-i-read-and-parse-the-contents-of-a-webpage-in-r –