2012-04-02 75 views
0

我下载了最新版本的phpcrawler,我可以访问我自己的测试网站。PHPcrawler - tmp文件

我只是有一个形象,并在此网站的一些文字,我运行履带和我收到的文本减去图像,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

我不能让它保存TMP文件它在我运行爬虫程序的文件夹中没有保存独特的tmp文件,我试图保存命名文件没有运气。

我在所有php文件的不同行上遇到了很多折旧错误,例如:@fopen,@在不同区域出现问题。我使用PHP,也可以做Regex。 David。

回答

0

我回答了我自己的问题,因为我看到PHPCrawler问题真的没有得到答案;我看到去年的一个问题没有回答。我也会回答,尽管做任何好事可能为时已晚。这是答案。

我在修改phpcrawler我调整我的需求增加:

$fp = fopen('c:/test/poopoo.txt','w'); 
fwrite($fp,($page_data['source'])); 
fclose($fp); 

你把它冲洗文件之前并创建类的实例。

我发现使用PHP Simple HTML DOM Parserthis project运作良好。如果您需要更多控制权,请使用RegExp,但确实存在陡峭的学习曲线。

+0

恭喜修复,并感谢您寻找PHPCrawler子社区!如果可以,请确保将答案标记为“已接受”,以便其他人可以从您的成功中学习。干杯〜 – 2012-04-05 16:26:31