2012-02-05 73 views
1

状态页看起来是这样的:如何使用机械化功能刮取HP打印机状态页面?

http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif

你看设备状态标题下方的文本?这就是我想要的。

导航到时,更新状态页面。我从网页源拉到这样的:

<form id="deviceStatusPage" method="post" action="this.LCDispatcher?nav=hp.DeviceStatus"> 

我似乎无法理解它实际上做,所以很难制定出一个良好的刮策略。我相当肯定这个解决方案是微不足道的,但我似乎根本无法开始。

应该说我一直在玩机械化和美丽的汤。前者似乎会达到我想要的,但我不知道如何。

回答

1

使用刮取库。 BeautifulSoup是一个伟大的。 mechanizeBeautifulSoup一起使得刮刀非常有用。

+0

这是机械化内使用什么是问题。 – Strings 2012-02-05 13:56:37

+0

[http://stockrt.github.com/p/handling-html-forms-with-python-mechanize-and-BeautifulSoup/]是一起使用它们的好例子。 – 0605002 2012-02-05 14:00:55