2010-08-17 129 views
0

它是如何将有可能做到以下几点:蟒蛇HTML标签提取

  1. 通过HTML页面(最好是通过全域扫描(www.python.org),并提取所有

H1 H2 ... HN标签

并将所有的标题到一个文件正确的顺序:

开始与H1 比H2

,直到我们达到一个新的H1

+0

这是一个严重不完整的问题。我无法做到头顶也不会尾巴。 – loevborg 2010-08-17 14:14:05

回答

1

由于需要扫描整个网站,因此您可能需要查看pycurl以抓取要抓取的文件。尽管如此,请注意不要击中相当于DoS攻击的网站。

+0

感谢你们俩。很好,很有趣!我怎样才能避免被视为潜在的威胁? – MacPython 2010-08-17 14:50:22

+0

只是限制你多么努力,而且经常碰到网站。当然,如果你控制场地,只需选择一个安静的时刻,然后锤击一段时间。 没有任何硬性或快速的指导方针:网站可以应对/被认为是可接受的将会有很大的不同。 – mavnn 2010-08-17 15:00:29