2011-05-11 71 views
1

我试图创建一个简单的工具来解析html文件。解析不带xpath的HTML

具体而言,我需要它从div标签中获得所有name属性。

我的HTML字符串各不相同,我没有任何控制权,所以如果我尝试使用xpath,我会倾向于获取错误,因为HTML不是100%正确写入。

任何想法?

感谢,

+0

[抓取A元素的href属性]的可能重复(http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element) – Gordon 2011-05-11 10:27:49

+3

如果HTML是格式不正确,请使用['DOMDocument :: loadHTML()'](http://de.php.net/manual/en/domdocument.loadhtml.php)。这将使DOM使用HTML解析器模块,它可以处理大多数错误的HTML罚款,并允许您使用XPath。 – Gordon 2011-05-11 10:29:04

+1

*(相关)* [解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2011-05-11 10:30:09

回答

2

还有上http://simplehtmldom.sourceforge.net/

称为PHP简单的HTML DOM解析器一个伟大的阶级正常工作与无效的HTML,但需要大量的内存用于解析HTML长,文件。

+0

This works great! – 2011-05-12 13:49:24