2011-05-12 119 views
0

我有一个接近800页的网站。我想提取所有的HTML并将代码放在XML中。我怎样才能做到这一点?从网站中提取html

+0

你想如何提取它?从静态文件?什么样的XML? – mario 2011-05-12 20:30:16

+0

如果它们是x-html页面,那么'ren * .html * .xml'就可以做到这一点。但是,真的,不知道你如何存储你的网页,这个问题是无法回答的。你有CMS并将它们存储在数据库中吗?基于文件的存储机制,就像单个.html文件或一个主PHP文件一样,只需根据需要包含页面? – 2011-05-12 20:30:57

+0

[解析HTML的最佳方法]的可能重复(http://stackoverflow.com/questions/3577641/best-methods-to-parse-html) – Gordon 2011-05-12 20:56:43

回答

3

PHP Simple HTML-DOM用于解析HTML和良好的旧DOM或Simple-XML用于创建XML。

+0

@mario页面是静态的HTML页面。我只想提取HTML并将其保存到XML文件中。没有要使用的数据库。 PHP简单的HTML-DOM如何? – 2011-05-13 13:15:50

+0

我想我不太明白你的问题。您不需要简单HTML-DOM的数据库。你只是包括图书馆,你很好去。它只是想要你想要的。 – schlingel 2011-05-13 19:36:07