2012-03-07 76 views
1

我有scraperwiki一个非常简单的Python脚本:为什么scraperwiki会忽略被刮掉的html行?

import scraperwiki 
import lxml.html 

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") 
print html 

我没有写任何东西来分析它尚未......现在我只想HTML。

当我在编辑模式下运行它完美的作品。

当一个计划的Scrape运行(或我手动运行它)时,它会省略数十(甚至数百)行。

这是一个非常小的网页,所以数据超载应该不成问题。有任何想法吗?

+0

你确定它不是一个如何在scraperwiki上处理印刷的假象吗? – Marcin 2012-03-07 14:39:40

+0

不确定...我在我的html输出中间出现一行,它的内容如下所示 - 实际数字每次都不相同(括号中包括):[53行,159000个字符省略] – maneesha 2012-03-07 14:43:24

+0

在scraperwiki文档中找不到任何内容关于它 – maneesha 2012-03-07 14:44:55

回答

0

在编辑器中,单个打印语句被汇总成一行显示。您可以在编辑器的控制台中单击“more ...”查看整个批次。

运行计划时,它只是输出完全像在任何控制台。所以如果HTML中有回车符,你会得到很多输出。

为了减少我们存储的输出量,我们从计划运行中截断了大量输出。这就是你见过的地方“[53行,159000个字符省略]”。

这不是真的打算从调度运行的标准输出是除了调试以外的任何东西。您需要保存到数据存储以获取要使用的输出。

+0

谢谢...我不知道你不能存储整个html。 – maneesha 2012-03-08 13:47:17

+0

不知道你的意思是存储......从计划运行存储的stdout只是为了调试。你可以在SQLite数据库中存储其他东西... – frabcus 2012-03-09 15:03:37

0

听起来像你的变量中有数据。尝试一次打印一行。