0
我使用rvest从谷歌查询结果中检索标题。我的代码是这样的:如何从查询结果中检索标题使用rvest
> url = URLencode(paste0("https://www.google.com.au/search?q=","600d"))
> page <- read_html(url)
> page %>%
html_nodes("a") %>%
html_text()
但是,结果不仅包括刚冠军,但还有其他方面,如:
[24] "Past month"
[25] "Past year"
[26] "Verbatim"
[27] "EOS 600D - Canon"
[28] "Similar"
[29] "Canon 600D | BIG W"
[30] "Cached"
[31] "Similar"
......
[45] ""
[46] ""
哪里还有什么我需要的是[27]“EOS 600D - 佳能“和[29]”佳能600D | BIG W“。他们显示在谷歌查询是这样的:
所有其他人只是对我来说噪音。任何人都可以请告诉我如何摆脱这些?
另外,如果我还需要描述部分,我该怎么办?
值得一读:http://stackoverflow.com/a/22703153/5977215 – SymbolixAU
刮谷歌是违反他们的服务条款,你也要求其他人违反这个问题。 – hrbrmstr
非常感谢。我会尝试另一种方式 –