我试图从谷歌新闻使用Python的通用feedparser下载一个新闻语料库(尝试做一些自然语言处理)。我对XML一无所知,我只是用一个如何使用feedparser的例子。 问题是,我无法在字典中找到我从RSS feed获得的内容的新闻标题。feedparser和谷歌新闻
目前,我尝试使用的代码是这样的:
import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later
feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()
我在这个岗位领取钥匙只是标题,摘要,日期,等...有没有内容。
这是Google新闻的一些问题还是我做错了什么?有没有办法做到这一点?
谷歌新闻不存储实际内容据我所知,只是一个内容摘要。您需要刮掉链接到该内容的网站。 – Bartek 2009-11-04 02:54:35
:( 我刚刚意识到几乎每一个相关的新闻源都是这样的,RSS feed从不包含新闻的全文,只是摘要,我想我必须学习如何使用BeautifulSoup。 – 2009-11-04 13:56:38
我刚刚意识到如何用BeautifulSoup解析一些页面。感谢您的回答。 – 2009-11-04 19:59:03