6
A
回答
14
我建议你考虑simple_html_dom。它会使它变得非常简单。
下面是如何拉标题和第一图像的工作示例。
<?php
require 'simple_html_dom.php';
$html = file_get_html('http://www.google.com/');
$title = $html->find('title', 0);
$image = $html->find('img', 0);
echo $title->plaintext."<br>\n";
echo $image->src;
?>
这是另一个没有外部库的例子。我应该注意到,在HTML上使用正则表达式不是一个好主意。
<?php
$data = file_get_contents('http://www.google.com/');
preg_match('/<title>([^<]+)<\/title>/i', $data, $matches);
$title = $matches[1];
preg_match('/<img[^>]*src=[\'"]([^\'"]+)[\'"][^>]*>/i', $data, $matches);
$img = $matches[1];
echo $title."<br>\n";
echo $img;
?>
+0
谢谢你的回答。我想我会坚持简单的HTML Dom解析器库,然后,每个人都在推荐它 – federicot 2012-03-21 22:13:43
2
您可以使用SimpleHtmlDom这样做的正确方法。然后查找标题和img标签或您需要做的其他事情。
+1
我曾经使用过的最好的第三方库之一。高度推荐它。 – cchana 2012-03-21 21:56:00
相关问题
- 1. PHP网页抓取
- 2. 在PHP中抓取网页的照片
- 3. 在iOS中抓取网页
- 4. python3中的网页抓取
- 5. Beautifulsoup网页抓取
- 6. Spyder - 网页抓取
- 7. php curl从网页抓取图片
- 8. PHP网络抓取HTMLDOM分页
- 9. 网页抓取/抓取的资源
- 10. r在网页中抓取(带循环)
- 11. 在Python/R中的网页抓取javascript
- 12. 先进的网页抓取
- 13. Python的SSL网页抓取
- 14. 用Java抓取网页
- 15. 从网页抓取文本
- 16. 网页抓取 - 为IE
- 17. Xpath Python网页抓取
- 18. Rselenium网页抓取问题
- 19. 刮屏|网页抓取
- 20. 抓取大量网页
- 21. 抓取网站使用PHP
- 22. 抓取页面更快[PHP]
- 23. Selenium/Web抓取/网页抓取Python中的应用程序
- 24. 在python下抓取IMDb的网页
- 25. 在txt模式下的网页抓取
- 26. Python中动态网页抓取
- 27. 抓取GWT中网页的内容
- 28. R/Python中的网页抓取
- 29. 网页抓取从3GPP网址
- 30. 从网站抓取多个网页
是的。有。你用Google吗?你有没有尝试过任何东西? – 2012-03-21 21:41:43
是的,我不会问这里,如果我没有 – federicot 2012-03-21 21:43:27
所以...你试过了什么? – 2012-03-21 21:44:30