2011-05-16 37 views
3

我试图从www.crossfit.com基本检索这块文本。如何从网站搜索特定文本,通过谷歌应用引擎(python)检索和使用它?


星期一110516

完整的多轮尽可能在五分钟的:

275磅硬拉,3次重复实验

115磅推按,7个代表


它基本上只是日期(星期一yymmdd)和一个worko的简短描述UT。该网站每天更新一次新的锻炼。我想写一个谷歌应用程序使用Python版本,将自动拉日常锻炼。我应该从哪里开始?我跟着google的helloworld例子,这和我对html,python和google apps的了解差不多。

回答

2

而不是自己解析HTML,请使用已提供的XML提要:http://www.crossfit.com/index.xml

您可以使用xml.etree.ElementTree解析python 2.5中的XML提要。

+1

您也可以使用PubSubHubbub,而不是自己轮询和解析它。 – 2011-05-17 03:55:10

+0

你也可以使用[feedparser](http://www.feedparser.org/) – systempuntoout 2011-05-17 10:39:30

+0

谢谢! feedparser很棒。我不得不阅读XML和RSS饲料,我想我几乎在那里。从网站提供的xml中,每个“条目”往往是在句/ paragrapgh上的一个很长且奇怪的标点符号,有什么方法可以提取锻炼说明,声明数量,并省略其余所有内容? – 1stsage 2011-05-17 18:55:38