2011-06-09 157 views
0

我是PHP新手。有人可以帮我弄清楚如何抓取单个html页面并打印该页面源代码中的所有单词吗?单页网页爬虫PHP

+0

你说的“打印所有词语的该页面的源代码的意思“? – Omer 2011-06-09 22:35:47

+0

我的意思是..解析通过页面的正文和打印长度超过3的所有单词.. – rkt 2011-06-09 22:38:27

+0

定义单词?你在谈论文字中的单词吗?标签?这很令人困惑 – Omer 2011-06-09 22:39:44

回答

1
$words = explode(" ", strip_tags(file_get_contents("www.example.com")); 
function trim_and_print(&$value) 
{ 
    trim($value); 
    if(strlen($value > 3) 
     echo $value; 
} 

array_walk($words, 'trim_and_print'); 

这应该打印长度> 3.感谢的话moteutsch为的file_get_contents

+1

为什么不使用'file_get_contents'? – moteutsch 2011-06-09 22:43:25

+0

当我使用echo strip_tags($ buffer)替换行echo $ buffer时;我得到空白页作为输出。但我需要源文本中的单词作为输出。 – rkt 2011-06-09 22:58:17

+0

了解它..谢谢..问题是与网址:)我改变了网址,它的工作.. – rkt 2011-06-09 22:59:52

1

您的问题不是很清楚,但您需要下载页面(使用cURL或PHP的文件功能)并以某种方式处理文件。下面是一个基本的解决方案:

echo strip_tags(file_get_contents('http://www.google.com'));