刮网页和格式化

我需要如何去解决这个问题的一些要点：刮网页和格式化

我有超过10K +简单的HTML网页，它们都具有相同的格式。当我说“相同的格式”时，我的意思是它们在开始时都会有相同的h1标签，但是文本不同，后面跟着一个表格，然后是一个链接，等等。所以，如果你看到，基本的HTML 10K +页面的骨架是相同的，但只是文本会不断变化。

我有一种方法来遍历所有这些10K页。但是我不知道如何将该页面中的特定文本复制到XLS/CSV列中。一旦我可以达到这个目标，我将把这张excel表格导入MySQL并做进一步的处理。

我知道PHP在一定程度上。所以，这是我能想到的：

$html = file_get_contents("http://www.SomeWebsite.com/");

然后我可以使用一些正则表达式来操作，我需要的数据。然而，我不知道如何处理重定向。

这是我能想到的，但还有什么更好的吗？可能是现有的工具或更好的脚本语言？

您可以使用HTQL来提取html内容。它具有Python和COM接口。见：http://htql.net/

要提取<H1>标签，简单地用 “<H1>” 作为查询。

2011-03-11 14:37:03 seagulf

你可以用PHP来做到这一点，尽管我推荐使用XPath而不是正则表达式。我个人使用Python lxml和this webscraping library。

2011-04-12 01:25:59 hoju

回答