2011-03-10 102 views
1

我需要如何去解决这个问题的一些要点:刮网页和格式化

我有超过10K +简单的HTML网页,它们都具有相同的格式。当我说“相同的格式”时,我的意思是它们在开始时都会有相同的h1标签,但是文本不同,后面跟着一个表格,然后是一个链接,等等。所以,如果你看到,基本的HTML 10K +页面的骨架是相同的,但只是文本会不断变化。

我有一种方法来遍历所有这些10K页。但是我不知道如何将该页面中的特定文本复制到XLS/CSV列中。一旦我可以达到这个目标,我将把这张excel表格导入MySQL并做进一步的处理。

我知道PHP在一定程度上。所以,这是我能想到的:

$html = file_get_contents("http://www.SomeWebsite.com/"); 

然后我可以使用一些正则表达式来操作,我需要的数据。然而,我不知道如何处理重定向。

这是我能想到的,但还有什么更好的吗?可能是现有的工具或更好的脚本语言?

回答

0

您可以使用HTQL来提取html内容。它具有Python和COM接口。见:http://htql.net/

要提取<H1>标签,简单地用 “<H1>” 作为查询。