2010-05-30 133 views
5

我希望将任何网页反向工程化为页面的逻辑表示。 例如,如果一个网页有一个菜单,那么我想要一个逻辑菜单结构可能是XML。如果网页有一篇文章,我想要一篇文章XML节点,如果它有一篇文章的标题,我想要一个标题XML节点。基本上,我想要没有任何用户界面的网页的逻辑形式。反向工程网页

这个逻辑模型既可以是代码中的对象,也可以是XML,这并不重要,重要的部分是它已经确定了页面上的所有内容。

回答

3

听起来像你想要的,需要一个人分类一个页面的内容。

这可能是自动的,但它会有误报,不适用于任何情况。

例如,如果一个页面使用ul作为菜单而另一个页面使用表格单元呢?

你想要特别针对一个网站或互联网上的任何网站吗?

0

如何已经解析XML页面上,看到

http://en.wikipedia.org/wiki/XHTML

+3

我会建议过,他转换了整个互联网XHTML;) – Onots 2010-05-30 11:22:21

+0

让我想发现Windows的GIF转移对话框说'下载互联网...' – alex 2010-05-30 11:44:26

+2

@alex - http://www.gifbin.com/982378 :)虽然,现在的大小似乎有点小.... – 2010-05-30 12:07:44