单页网页爬虫PHP

我是PHP新手。有人可以帮我弄清楚如何抓取单个html页面并打印该页面源代码中的所有单词吗？单页网页爬虫PHP

2011-06-09 rkt

你说的“打印所有词语的该页面的源代码的意思“？ – Omer 2011-06-09 22:35:47

我的意思是..解析通过页面的正文和打印长度超过3的所有单词.. – rkt 2011-06-09 22:38:27

定义单词？你在谈论文字中的单词吗？标签？这很令人困惑 – Omer 2011-06-09 22:39:44

$words = explode(" ", strip_tags(file_get_contents("www.example.com")); 
function trim_and_print(&$value) 
{ 
    trim($value); 
    if(strlen($value > 3) 
     echo $value; 
} 

array_walk($words, 'trim_and_print');

这应该打印长度> 3.感谢的话moteutsch为的file_get_contents

来源

2011-06-09 22:41:14 Nate

为什么不使用'file_get_contents'？ – moteutsch 2011-06-09 22:43:25

当我使用echo strip_tags（$ buffer）替换行echo $ buffer时;我得到空白页作为输出。但我需要源文本中的单词作为输出。 – rkt 2011-06-09 22:58:17

了解它..谢谢..问题是与网址:)我改变了网址，它的工作.. – rkt 2011-06-09 22:59:52

您的问题不是很清楚，但您需要下载页面（使用cURL或PHP的文件功能）并以某种方式处理文件。下面是一个基本的解决方案：

echo strip_tags(file_get_contents('http://www.google.com'));

来源

2011-06-09 22:38:49 moteutsch

单页网页爬虫PHP

回答

相关问题