2016-01-25 35 views
-5

我是新来的PHP数据抓取,我查看了其他线程,我找不到我需要的东西。 我想制作一个脚本,在信息发生变化的情况下不断检查网站,同时获取信息。 例如: google.com 我想抓取“Google搜索”,但同时它会每隔一段时间检查它是否已更改。 干杯!PHP - 数据抓取

$html = file_get_contents($url); 

libxml_use_internal_errors(true); 
$doc = new DOMDocument; 
$doc->loadHTML($html); 
$xpath = new DOMXpath($doc); 


$node = $xpath->query('//div[@name="jsb"]')->item(0); 

echo $node->textContent; 
+0

您已添加代码 - 很棒。但代码的问题是什么?你是说它不起作用吗?如果真是这样,那么是以哪种方式? –

+0

你的问题和/或问题是什么? –

+0

@Dagon我收到以下错误:注意:未定义的变量:第2行中的C:\ xampp \ htdocs \ test.php中的url 警告:file_get_contents():文件名在C:\ xampp \ htdocs \ test中不能为空.php on line 2 警告:DOMDocument :: loadHTML():在第6行的C:\ xampp \ htdocs \ test.php中输入的空字符串 注意:试图获取C中非对象的属性: \ xampp \ htdocs \ test.php 12行 –

回答

1

PHP Simple HTML DOM Parser将是一个很好的起点和还阅读了关于Cronjobs

但是告诉我们你得到了什么,到目前为止,所以我们可以帮助你,我们是不会写代码您。

编辑:

问题是这一行:

$html = file_get_contents($url); 

其中定义$网址是什么?它看起来像是空的,你可以试着用网站链接替换它,看起来像这样。

$html = file_get_contents("http://domain.tld/page"); 
+0

已编辑主帖子。 –

+0

感谢您解决这个问题,我瞎了....但现在我得到这个错误:注意:试图获得非线对象的属性在C:\ xampp \ htdocs \ test.php 12行 –

+0

这将是你的xpath这是不正确的,我会猜测。 – keja