0
我已经提取IMDB上的电影评论,但是单独的评论在它们之间有很多空行。它是非结构化的,很难查看。 我必须分别对每个函数应用某些函数,然后将它们一起存储为1,用于某些其他函数的文本挖掘。使用rvest从IMDB中刮掉电影评论
我该如何构造(清洁)它们并一次访问它们,以及如何将它们组合并将它们存储在一起?
这里是我刮评论
ID <- 1490017
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific")
MOVIE_URL <- read_html(URL)
ex_review <- MOVIE_URL %>%
html_nodes("p") %>%
html_text()
这大大提高了提取效果。非常感谢您的回答。然而,我的主要问题是能够处理我已经提取的评论,因为我无法这样做。对它们进行处理,就像删除每个评论之间的多条线一样。同时结合文字形成所有评论的一大段。因为我还需要进行全面分析。 –
我编辑的答案适合你吗? – motorrrr
使用此方法不会删除换行符。其他的事情工作正常:) –