2010-11-03 67 views
0

我需要找一个包含实际相关网页文字的标签。例如,在一个新增的论文网站上,有添加,菜单和横幅等,我需要能够解析网页,假设它是用XHTML来简化场景,并且只返回包含页面上实际新闻的标签。寻找网页上的主要文字

我想到的方式是比较每个节点中文本的大小,并选取大多数文本的节点。有没有人有更好的主意?

回答

0

如何通过xhtml标题内容进行标识?

+0

不可能。被解析的页面是现有的页面,就像我提到的新闻网站。不符合我们的需求或建议。 – Shahzeb 2010-11-04 23:57:00