1
我试图创建一个简单的工具来解析html文件。解析不带xpath的HTML
具体而言,我需要它从div
标签中获得所有name
属性。
我的HTML字符串各不相同,我没有任何控制权,所以如果我尝试使用xpath,我会倾向于获取错误,因为HTML不是100%正确写入。
任何想法?
感谢,
我试图创建一个简单的工具来解析html文件。解析不带xpath的HTML
具体而言,我需要它从div
标签中获得所有name
属性。
我的HTML字符串各不相同,我没有任何控制权,所以如果我尝试使用xpath,我会倾向于获取错误,因为HTML不是100%正确写入。
任何想法?
感谢,
还有上http://simplehtmldom.sourceforge.net/
称为PHP简单的HTML DOM解析器一个伟大的阶级正常工作与无效的HTML,但需要大量的内存用于解析HTML长,文件。
This works great! – 2011-05-12 13:49:24
[抓取A元素的href属性]的可能重复(http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element) – Gordon 2011-05-11 10:27:49
如果HTML是格式不正确,请使用['DOMDocument :: loadHTML()'](http://de.php.net/manual/en/domdocument.loadhtml.php)。这将使DOM使用HTML解析器模块,它可以处理大多数错误的HTML罚款,并允许您使用XPath。 – Gordon 2011-05-11 10:29:04
*(相关)* [解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2011-05-11 10:30:09