2012-10-05 48 views
1

我目前正在构建一个刮板来从网站上刮取某些信息。从网站检索特定数据

例如,我想从一个网站获得一个餐厅名称,地址,开放时间&电话号码。

通过使用curl,我设法从该网站的数据:

$url = "http://localhost/test.html"; 
    $ch = curl_init(); 
    curl_setopt($ch, CURLOPT_URL, $url); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
    $data = curl_exec($ch); 
    curl_close($ch); 

不过,我需要我如何将能够针我刮指向的确切位置刮这些信息的一些想法出。

我试过正则表达式,但无法使其正常工作。

+1

请记住,此类操作可能会与版权发生冲突。 – Peon

+0

是的,我知道我们拥有这个项目的版权,我正在处理 – ben

+0

好吧,如果你拥有这个项目,只需在项目端创建一个XML响应,它将生成并返回所需的数据。 – Peon

回答

3

使用SimpleHTMLDom解析器PHP:
http://simplehtmldom.sourceforge.net/

这里下载:
http://sourceforge.net/projects/simplehtmldom/files/

文档浏览:
http://simplehtmldom.sourceforge.net/manual.htm

这是我与解析的最佳工具体验用php解析HTML ...

而且你不需要使用卷曲用于获取的内容,如果没有必要,对simpleHTMLDom解析器只需使用:

$remote_html = file_get_html("http://www.somesite.com/"); 
+0

感谢您的快速回复!我会在周末看看 – ben

+0

你不会在simpleHTMLDom解析器中犯错,它真的很好,我个人使用它已经很多年了。如果你需要一些具体的帮助随时问... – Develoger

+0

刚刚使用这个..真的很有用 – ben