我目前正试图找出一种方法来编写一个脚本(最好是PHP),该脚本将通过站点爬行并创建站点地图。除了传统的页面标准列表之外,我希望脚本能够跟踪哪些页面链接到其他页面。如何使用页面关系创建站点地图
示例页面
A
B
C
D
我想输出给我像下面这样。
页面名称:甲
页链接到网页A:
- 乙
- Ç
- d
页面名称:乙
页面链接到网页B:
- 一个
- Ç
等等
我已经遇到多个标准Sitemap脚本,但没有什么能够真正实现我所寻找的。
编辑 我似乎没有给足够的信息。对不起,我缺乏清晰度。这是我现在的代码。我使用simple_html_dom.php来处理解析和搜索html的任务。
<?php
include("simple_html_dom.php");
url = 'page_url';
$html = new simple_html_dom();
$html->load_file($url);
$linkmap = array();
foreach($html->find('a') as $link):
if(contains("cms/education",$link)):
if(!in_array($link, $linkmap)):
$linkmap[$link->href] = array();
endif;
endif;
endforeach;
?>
注:基于URL特定的子我的小foreach循环过滤器只。
所以,我有必要的第一级页面。卡住的地方在于创建一个不会无限期运行的循环,同时跟踪您已经访问过的页面。
那么你的问题是什么? – Gumbo
我已经更新了我的帖子,并提供了更多详细信息。 – Andy
感谢您的更新,安迪。这是我们可以与之合作的事情:)请记住点赞/接受可以帮助你的答案。 –