2
我正在寻找更好的想法从html文件中提取表格。现在我使用整洁(http://tidy.sourceforge.net/)将html文件转换为xhtml,然后使用rapidxml解析xml。解析时,我会查找<table>
,<tr>
和<td>
节点,并创建我的表数据结构。用c/C++从html文件中以编程方式提取表格
它的工作原理相当不错,但如果有更好的方法来完成我的任务,我想知道。整洁的lib也像是一个被遗弃的项目。
也有大家有没有试过在整洁的源代码中的“实验性”补丁?
感谢, 基督教
http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – romar 2013-02-09 20:57:36
的可能的复制所以你只是寻找一个XML或HTML解析替代库? – LihO 2013-02-09 21:04:48
我正在寻找想法从HTML使用C或C++提取表格。 – chhenning 2013-02-09 21:07:24