为什么scraperwiki会忽略被刮掉的html行？

我有scraperwiki一个非常简单的Python脚本：为什么scraperwiki会忽略被刮掉的html行？

import scraperwiki 
import lxml.html 

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php") 
print html

我没有写任何东西来分析它尚未......现在我只想HTML。

当我在编辑模式下运行它完美的作品。

当一个计划的Scrape运行（或我手动运行它）时，它会省略数十（甚至数百）行。

这是一个非常小的网页，所以数据超载应该不成问题。有任何想法吗？

2012-03-07 maneesha

你确定它不是一个如何在scraperwiki上处理印刷的假象吗？ – Marcin 2012-03-07 14:39:40

不确定...我在我的html输出中间出现一行，它的内容如下所示 - 实际数字每次都不相同（括号中包括）：[53行，159000个字符省略] – maneesha 2012-03-07 14:43:24

在scraperwiki文档中找不到任何内容关于它 – maneesha 2012-03-07 14:44:55

在编辑器中，单个打印语句被汇总成一行显示。您可以在编辑器的控制台中单击“more ...”查看整个批次。

运行计划时，它只是输出完全像在任何控制台。所以如果HTML中有回车符，你会得到很多输出。

为了减少我们存储的输出量，我们从计划运行中截断了大量输出。这就是你见过的地方“[53行，159000个字符省略]”。

这不是真的打算从调度运行的标准输出是除了调试以外的任何东西。您需要保存到数据存储以获取要使用的输出。

2012-03-07 16:14:13 frabcus

谢谢...我不知道你不能存储整个html。 – maneesha 2012-03-08 13:47:17

不知道你的意思是存储......从计划运行存储的stdout只是为了调试。你可以在SQLite数据库中存储其他东西... – frabcus 2012-03-09 15:03:37

听起来像你的变量中有数据。尝试一次打印一行。

2012-03-07 14:45:19 Marcin

回答