我有一大堆HTML文档,里面有数据表,我正在编写一个脚本,它可以处理HTML文件,隔离标签及其内容,然后连接所有这些表中的行放入一个大型数据表中。然后循环遍历新大表的行和列。使用PHP连接HTML表格DOMDocument
经过一番研究,我开始尝试PHP的DOMDocument类来解析HTML,但我只是想知道,这是做这种事情的最好方法吗?
这是我这么远......
$dom = new DOMDocument();
$dom->preserveWhiteSpace = FALSE;
@$dom->loadHTMLFile('exrate.html');
$tables = $dom->getElementsByTagName('table');
如何砍掉比表及其内容等一切吗? 然后我真的想删除第一个表,因为它是一个目录。然后循环遍历所有表行并将它们构建到一个大表中。
任何人有任何提示如何做到这一点? 我一直在深入研究php.net上的DOMDocument文档,但是我发现语法非常令人困惑!
干杯,B
编辑:这是我想加入http://thenetzone.co.uk/exrates/exrate.html
那么,DOMDocument是可怕的。尝试phpQuery或QueryPath或其他[解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html)。但我的第二个建议是使用一个更简单的正则表达式类从html表中提取行。 – mario 2011-02-04 21:27:16