2008-09-16 49 views

回答

1

取决于你想要做什么样的处理。您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以在结果中使用所有常用的XML工具,如XSLT和XQuery。

如果你要处理他们在Microsoft Excel,那么你应该能够切片表与HTML,并把它放在一个文件,然后打开该文件在Excel中:它可以转化HTML表中一个电子表格页面。然后,您可以将其另存为CSV或Excel工作簿等(您甚至可以在Web服务器上使用此工具 - 返回一个HTML表格,但将Content-Type标题设置为application/ms-vnd.excel:将打开Excel并导入表格并将其转换为电子表格)。

如果你想CSV在喂到一个数据库,那么你可以通过Excel作为之前去,或者,如果你想自动执行的过程,你可以写一个使用的导航XML的API程序你选择迭代表格行并将它们保存为CSV。 Python的Elementtree和CSV模块将使这非常容易。

2

我已经使用BeautifulSoup在过去这样的事情取得了巨大的成功。

1

在审查了建议后,我使用HtmlUnit清盘。

用的HtmlUnit,我能够自定义的Java代码来打开该文件夹中的每个HTML文件,浏览到该表标签, 查询每列的内容,并提取我需要创建一个CSV文件中的数据。

相关问题