0 它是如何将有可能做到以下几点:蟒蛇HTML标签提取 通过HTML页面(最好是通过全域扫描(www.python.org),并提取所有 H1 H2 ... HN标签 并将所有的标题到一个文件正确的顺序: 开始与H1 比H2 ,直到我们达到一个新的H1 来源 2010-08-17 MacPython +0 这是一个严重不完整的问题。我无法做到头顶也不会尾巴。 – loevborg 2010-08-17 14:14:05
1 由于需要扫描整个网站,因此您可能需要查看pycurl以抓取要抓取的文件。尽管如此,请注意不要击中相当于DoS攻击的网站。 来源 2010-08-17 14:20:03 mavnn +0 感谢你们俩。很好,很有趣!我怎样才能避免被视为潜在的威胁? – MacPython 2010-08-17 14:50:22 +0 只是限制你多么努力,而且经常碰到网站。当然,如果你控制场地,只需选择一个安静的时刻,然后锤击一段时间。 没有任何硬性或快速的指导方针:网站可以应对/被认为是可接受的将会有很大的不同。 – mavnn 2010-08-17 15:00:29
这是一个严重不完整的问题。我无法做到头顶也不会尾巴。 – loevborg 2010-08-17 14:14:05