我知道关于PHP网页刮板的问题已被问及时间和使用这个,我发现了SimpleHTMLDOM。在我的本地服务器上无缝工作之后,我将所有内容都上传到了我的在线服务器上,以便找出某些问题无法解决。快速浏览常见问题解答后,我会转到this。我目前正在使用免费托管服务,因此请编辑任何php.ini设置。所以使用FAQ的建议,我尝试使用cURL,只是发现这也是由我的托管服务关闭。是否还有其他简单的解决方案可以在不使用cURL或SimpleHTMLDOM的情况下删除另一个网页的内容?当cURL和allow_url_fopen被禁用时如何抓取网站
回答
如果cURL
和allow_url_fopen
没有启用,你可以尝试获取通过内容
fsockopen
- 打开Internet或Unix域套接字连接
换句话说,你所要做的HTTP请求手动。请参阅手册中的示例以了解如何执行GET请求。然后可以进一步处理返回的内容。如果套接字已启用,您还可以使用任何第三方lib来利用它们,例如Zend_Http_Client
。
在旁注中,查看Best Methods to Parse HTML以获得SimpleHTMLDom的替代方案。
cURL是一种专业API。它不是通常制作的http库,而是FTP,SFTP,SCP,HTTP PUT,SMTP,TELNET等通用数据传输库。如果您只想使用HTTP,则有一个根据PEAR library for that。或者检查您的PHP版本是否启用了官方http extension。 刮刮试phpQuery或querypath。两者都带有内置http支持。
我认为querypath使用DOM的加载工具和afaik,它们依赖于'allow_url_fopen'。另一方面,phpquery使用'Zend_Http_Client',这可能是一个选项。 PEAR图书馆也是一个很好的电话。这是'fsockopen'上的一个实现。 – Gordon 2010-10-07 11:01:39
file_get_contents()是在不安装额外库的情况下抓取页面的最简单方法。
下面是在allow_url_fopen
设置为false
时抓取图像的一种简单方法,无需研究传统工具。
在您的开发环境中创建一个网页,加载您正在抓取的所有图像。然后您可以使用浏览器保存图像。 File -> "Save Page As"
。
如果您需要一次性解决方案从allow_url_fopen
设置为0
的远程服务器下载一堆图像,这很方便。
这对我工作后file_get_contents
和curl
失败。
- 1. 当allow_url_fopen = off时,PHP图像抓取
- 2. PHP,需要帮助使用cURL allow_url_fopen被禁用
- 3. 当Facebook抓取网站时执行Javascript
- 4. Scrapy - 抓取和刮网站
- 5. 如何使用scrapy抓取网站?
- 6. 如何同时读取和抓取网址和网站文件内容c#
- 7. Google何时重新抓取网站?
- 8. scrapy抓取网站
- 9. 抓取网站使用PHP
- 10. 抓取网站和动态网址
- 11. 成功提交后django网站的网站没有被抓取
- 12. 网站抓取器每隔几秒就抓取一次网站
- 13. 如何抓取SimpleHTMLDom返回的网站?
- 14. 如何抓取网站证书?
- 15. 如何抓取Hype Machine等网站?
- 16. 如何从网站上抓取数据
- 17. 如何抓取我自己的网站?
- 18. 如何解析/抓取/抓取特定信息的网站?
- 19. 如何避免在抓取Google Play评论时被禁止?
- 20. 如何在网站被抓取时停止请求Google地理编码api
- 21. 网站抓取与R和rvest
- 22. 我如何从Python网站抓取网站上的pdf链接
- 23. 我如何从R网站抓取这个网站的信息?
- 24. 当要求/ BeautifulSoup网站抓取时绕过脚本响应
- 25. php curl从网页抓取图片
- 26. PHP用CURL抓取网页时处理cookie
- 27. apache nutch不抓取网站
- 28. 网站内容抓取
- 29. 抓取整个网站python
- 30. cURL抓取功能
+1不知道你可以使用fsockopen,即使allow_url_fopen是不允许的。 – NikiC 2010-10-20 18:18:18