我在Python中使用feedparser库来从当地报纸上检索新闻(我的意图是在这个语料库上进行自然语言处理),并希望能够检索许多过去来自RSS提要的条目。我不太了解RSS的技术问题,但我认为这应该是可能的(我可以看到,例如,Google Reader和Feedly可以在需要时按需执行此操作,因为我移动滚动条)。Feedparser - 从谷歌阅读器检索旧邮件
当我做到以下几点:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
我得到的只有十几项左右。我正在考虑数百人。如果可能,可能是上个月的所有参赛作品。只有使用feedparser才能做到这一点吗?
我打算从rss feed中只获取新闻项目的链接,并用BeautifulSoup解析整个页面以获取我想要的文本。另一种解决方案是爬行器,它遵循页面中的所有本地链接来获取大量新闻内容,但现在我想避免这种情况。
-
一个解决方案,似乎是使用谷歌阅读器RSS缓存:
但访问此我必须登录到谷歌阅读器。任何人都知道我是如何从python那里做到的? (我真的不知道关于网络的一些事情,我通常只会搞数值计算)。
再次感谢Bartek。我想我现在对它更了解了。所以RSS只是一个存储在服务器中的xml文件?我对它有错误的印象......认为这是一种“协议”来获得文字提要。 再次感谢。 – 2009-11-04 20:19:46