用rvest读取文档正文的原始文本？

我很愚蠢地试图读取网站的原始文本内容。目的是为文本分析（例如词频）创建语料库。所以，我想所有的HTML剥离掉了，里面的标签内容，使用此代码返回为原始文本:-)用rvest读取文档正文的原始文本？

：

thispage < - read_html（下一页）
写（thispage，文件，追加= TRUE，九月=“”）

产生一个错误，因为read_html（）返回一个指针数组：

我会在这里提交的错误信息，如果接口会让我，但我只是得到一个红方框说“你的帖子出现rs来包含代码“，然后是一些不会与chrome一起工作的指令。

我知道我可以使用SelectorGadget等来查明DOM的特定对象并检索这些对象。但我希望有一个更简单的方法。它存在吗？

感谢+欢呼声，自我

2016-11-09 edvin

我建议尝试刮的标准rvest方式：让所有的HTML，然后选择你的id，并抢得的原始文本：

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()

2016-11-09 16:21:29 kbrunner

当然，这就是我已经认识到了。我已经有了它的框架：分页，抓取所有网址，全部访问它们并刮擦相关的块，下一页......等等。我目前正在处理标题，并将处理保存在单独的文件中。然后，我可以分别开发拼图以后再生成更大的语料库。 – edvin

回答