我是PHP新手。有人可以帮我弄清楚如何抓取单个html页面并打印该页面源代码中的所有单词吗?单页网页爬虫PHP
0
A
回答
1
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value)
{
trim($value);
if(strlen($value > 3)
echo $value;
}
array_walk($words, 'trim_and_print');
这应该打印长度> 3.感谢的话moteutsch为的file_get_contents
1
您的问题不是很清楚,但您需要下载页面(使用cURL或PHP的文件功能)并以某种方式处理文件。下面是一个基本的解决方案:
echo strip_tags(file_get_contents('http://www.google.com'));
相关问题
- 1. PHP网络爬虫
- 2. PHP中的网页爬虫链接/页面逻辑
- 3. 与Python 2.7.9分页网络爬虫
- 4. 自动登录谷歌网页爬虫
- 5. 使用python beautifulsoup进行网页爬虫
- 6. 减轻爬虫网页负载
- 7. 用飞镖写的网页爬虫
- 8. 网络爬虫
- 9. java网络爬虫
- 10. Python网络爬虫
- 11. 网络爬虫是否仅依靠主页上的链接来进行爬网?
- 12. php爬虫检测
- 13. PHP与Python对于网络爬虫
- 14. 基于ajax的网站的php爬虫?
- 15. 在android上的简单网络爬虫?
- 16. 简单的Python网络爬虫
- 17. 电子邮件链接被阻止的网页爬虫
- 18. 与ajax一起工作的网页报废/爬虫
- 19. 我可以告诉网站爬虫访问某个页面吗?
- 20. 专门用于下载图像和文件的网页爬虫
- 21. 有没有Objective-C的网页爬虫框架?
- 22. 有没有任何Java脚本的网页爬虫框架
- 23. 需要网络爬虫
- 24. 自动网络爬虫
- 25. 网络爬虫,反馈?
- 26. 网络爬虫不打印
- 27. 网络爬虫应用
- 28. 网络爬虫提取
- 29. 单页应用程序Web爬虫和SEO
- 30. Python简单的网络爬虫错误(无限循环爬行)
你说的“打印所有词语的该页面的源代码的意思“? – Omer 2011-06-09 22:35:47
我的意思是..解析通过页面的正文和打印长度超过3的所有单词.. – rkt 2011-06-09 22:38:27
定义单词?你在谈论文字中的单词吗?标签?这很令人困惑 – Omer 2011-06-09 22:39:44