2017-08-28 96 views
0

我试图分析我正在运行的Google论坛的情绪。为了获得论坛内容,我开始了解了两种方法:1.使用硒进行网页抓取,但这种方法不可靠,谷歌经常改变类名。 2.使用RSS提要。google-groups rss feed has truncated description

第二种方法似乎是一个不错的选择,但问题是RSS提要描述被截断。有没有办法获得完整的描述而不截断?或者有没有其他的方式来获得公共谷歌组的内容?

+0

我检查了Google群组设置,但我还没有找到任何不截断RSS内容的选项。 – goofy

回答

0

对于那些面临类似问题的人 - 刮谷歌组的内容,我遇到了一个名为gg_scraper 0.10.0的python pkg,它将谷歌组内容下载到MBOX文件中。我后来将这些MBOX文件转换为JSON格式的文件供我使用。