从网站中提取html

我有一个接近800页的网站。我想提取所有的HTML并将代码放在XML中。我怎样才能做到这一点？从网站中提取html

2011-05-12 Steve Richards

你想如何提取它？从静态文件？什么样的XML？ – mario 2011-05-12 20:30:16

如果它们是x-html页面，那么'ren * .html * .xml'就可以做到这一点。但是，真的，不知道你如何存储你的网页，这个问题是无法回答的。你有CMS并将它们存储在数据库中吗？基于文件的存储机制，就像单个.html文件或一个主PHP文件一样，只需根据需要包含页面？ – 2011-05-12 20:30:57

[解析HTML的最佳方法]的可能重复（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html） – Gordon 2011-05-12 20:56:43

PHP Simple HTML-DOM用于解析HTML和良好的旧DOM或Simple-XML用于创建XML。

来源

2011-05-12 20:30:23 schlingel

@mario页面是静态的HTML页面。我只想提取HTML并将其保存到XML文件中。没有要使用的数据库。 PHP简单的HTML-DOM如何？ – 2011-05-13 13:15:50

我想我不太明白你的问题。您不需要简单HTML-DOM的数据库。你只是包括图书馆，你很好去。它只是想要你想要的。 – schlingel 2011-05-13 19:36:07

从网站中提取html

回答

相关问题