我想从this page中提取只有一个具有id=MainText
的div元素。然而,当我这个页面的内容加载到DOM对象,我得到几个错误:使用DomDocument获取元素在破损的HTML页面上使用DomDocument
Tag g:plusone invalid... Unexpected end tag... htmlParseEntityRef: no name ... htmlParseEntityRef: expecting ';' ...
所以,我在想,如果有可能从文档忽略所有其他的东西而直接进入到第一部分只需要获取具有该特定ID的div元素即可。
或者,有没有其他的使用domdocument类来实现相同的目的?我不擅长写正则表达式。
*“当我加载此页面的内容时”* - 您是如何做到这一点的? – Tomalak 2011-06-04 16:25:05
@Tomalak:我还没有决定如何去做。仅出于测试目的,我下载了该页面并将其放在本地文件夹中,然后使用了loadHTMLFile方法 – fabio 2011-06-05 16:01:23