2016-11-09 56 views
1

我很愚蠢地试图读取​​网站的原始文本内容。 目的是为文本分析(例如词频)创建语料库。 所以,我想所有的HTML剥离掉了,里面的标签内容,使用此代码返回为原始文本:-)用rvest读取文档正文的原始文本?

thispage < - read_html(下一页)
写(thispage,文件,追加= TRUE,九月=“”)

产生一个错误,因为read_html()返回一个指针数组:

我会在这里提交的错误信息,如果接口会让我, 但我只是得到一个红方框说“你的帖子出现rs来包含代码“,然后是一些不会与chrome一起工作的指令。

我知道我可以使用SelectorGadget等来查明DOM的特定对象并检索这些对象。但我希望有一个更简单的方法。它存在吗?

感谢+欢呼声, 自我

回答

1

我建议尝试刮的标准rvest方式:让所有的HTML,然后选择你的id,并抢得的原始文本:

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text() 
+0

当然,这就是我已经认识到了。 我已经有了它的框架:分页,抓取所有网址,全部访问它们并刮擦相关的块,下一页......等等。 我目前正在处理标题,并将处理保存在单独的文件中。然后,我可以分别开发拼图以后再生成更大的语料库。 – edvin