我的问题是关于R能够读取URL链接。我使用的示例仅用于说明目的。假设我有以下想阅读的网页(随机选择);从一个URL刮到另一个URL在R
https://www.mcdb.ucla.edu/faculty
它有一个URL链接教授的名单,我想建立一个脚本,可以读取与此类似,例如网页和访问每个URL链接,并为某些关键字搜索关于他们的刊物。
我目前有我的脚本扫描某个网站的某些关键字,我在下面发表。
library(rvest)
library(dplyr)
library(tidyverse)
library(stringr)
prof <- readLines("https://www.mcdb.ucla.edu/faculty/jsadams")
library(dplyr)
text_df <- data_frame(text = prof)
text_df <- as.data.frame.table(text_df)
keywords <- c("nonskeletal", "antimicrobial response")
text_df %>%
filter(str_detect(text, keywords[1]) | str_detect(text, keywords[2]))
这应该返回教授网页上“Selected Publications”部分下的出版物1,2和4。
现在我试图让R从教员链接(https://www.mcdb.ucla.edu/faculty)中阅读每个教授页面,并查看每位教授是否有含上述关键字的出版物。
- 阅读:https://www.mcdb.ucla.edu/faculty
- 访问的每个环节,并宣读每位教师页:
- 返回,如果值“关键字” = TRUE:
- 名单教授出版物或已在“关键字”文本:
我已经能够为每个单独的页面做到这一点,但我可能更喜欢循环或功能,所以我不必每次都复制并粘贴每个教授页面的URL。
只是一个轻微的免责声明 - 我与加州大学洛杉矶分校或该网站的教授没有任何关系,我选择的教授网址恰好是第一位在教授网页上列出的教授。