解析不带xpath的HTML

我试图创建一个简单的工具来解析html文件。解析不带xpath的HTML

具体而言，我需要它从div标签中获得所有name属性。

我的HTML字符串各不相同，我没有任何控制权，所以如果我尝试使用xpath，我会倾向于获取错误，因为HTML不是100％正确写入。

任何想法？

感谢，

2011-05-11 Or Weinberger

[抓取A元素的href属性]的可能重复（http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element） – Gordon 2011-05-11 10:27:49

如果HTML是格式不正确，请使用['DOMDocument :: loadHTML（）']（http://de.php.net/manual/en/domdocument.loadhtml.php）。这将使DOM使用HTML解析器模块，它可以处理大多数错误的HTML罚款，并允许您使用XPath。 – Gordon 2011-05-11 10:29:04

*（相关）* [解析HTML的最佳方法]（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662） – Gordon 2011-05-11 10:30:09

还有上http://simplehtmldom.sourceforge.net/

称为PHP简单的HTML DOM解析器一个伟大的阶级正常工作与无效的HTML，但需要大量的内存用于解析HTML长，文件。

来源

2011-05-11 15:27:54 shadowhorst

This works great！ – 2011-05-12 13:49:24

解析不带xpath的HTML

回答

相关问题