2013-02-09 103 views
2

我正在寻找更好的想法从html文件中提取表格。现在我使用整洁(http://tidy.sourceforge.net/)将html文件转换为xhtml,然后使用rapidxml解析xml。解析时,我会查找<table>,<tr><td>节点,并创建我的表数据结构。用c/C++从html文件中以编程方式提取表格

它的工作原理相当不错,但如果有更好的方法来完成我的任务,我想知道。整洁的lib也像是一个被遗弃的项目。

也有大家有没有试过在整洁的源代码中的“实验性”补丁?

感谢, 基督教

+0

http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – romar 2013-02-09 20:57:36

+0

的可能的复制所以你只是寻找一个XML或HTML解析替代库? – LihO 2013-02-09 21:04:48

+0

我正在寻找想法从HTML使用C或C++提取表格。 – chhenning 2013-02-09 21:07:24

回答

0

我觉得你的做法是相当确定。我认为最好的做法是整理并将html转换为xhtml并解析xml。看不到如何简化。

所以我不知道是什么问题你没有提到任何问题。

相关问题