我需要如何去解决这个问题的一些要点:刮网页和格式化
我有超过10K +简单的HTML网页,它们都具有相同的格式。当我说“相同的格式”时,我的意思是它们在开始时都会有相同的h1标签,但是文本不同,后面跟着一个表格,然后是一个链接,等等。所以,如果你看到,基本的HTML 10K +页面的骨架是相同的,但只是文本会不断变化。
我有一种方法来遍历所有这些10K页。但是我不知道如何将该页面中的特定文本复制到XLS/CSV列中。一旦我可以达到这个目标,我将把这张excel表格导入MySQL并做进一步的处理。
我知道PHP在一定程度上。所以,这是我能想到的:
$html = file_get_contents("http://www.SomeWebsite.com/");
然后我可以使用一些正则表达式来操作,我需要的数据。然而,我不知道如何处理重定向。
这是我能想到的,但还有什么更好的吗?可能是现有的工具或更好的脚本语言?