使用TIDY清理完整个HTML文件的文件夹后,如何提取表格内容以供进一步处理?从一组HTML文件中提取表格内容的最佳方式是什么?
回答
取决于你想要做什么样的处理。您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以在结果中使用所有常用的XML工具,如XSLT和XQuery。
如果你要处理他们在Microsoft Excel,那么你应该能够切片表与HTML,并把它放在一个文件,然后打开该文件在Excel中:它可以转化HTML表中一个电子表格页面。然后,您可以将其另存为CSV或Excel工作簿等(您甚至可以在Web服务器上使用此工具 - 返回一个HTML表格,但将Content-Type
标题设置为application/ms-vnd.excel
:将打开Excel并导入表格并将其转换为电子表格)。
如果你想CSV在喂到一个数据库,那么你可以通过Excel作为之前去,或者,如果你想自动执行的过程,你可以写一个使用的导航XML的API程序你选择迭代表格行并将它们保存为CSV。 Python的Elementtree和CSV模块将使这非常容易。
我已经使用BeautifulSoup在过去这样的事情取得了巨大的成功。
在.NET中,您可以使用HTMLAgilityPack。
有关更多信息,请参阅StackOverflow上的此previous question。
如果你想从HTML标记中提取内容,你应该使用某种类型的HTML解析器。为此有很多在那里,这里有两个可能适合您的需要:
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
在审查了建议后,我使用HtmlUnit清盘。
用的HtmlUnit,我能够自定义的Java代码来打开该文件夹中的每个HTML文件,浏览到该表标签, 查询每列的内容,并提取我需要创建一个CSV文件中的数据。
迭代通过文字,并使用正则表达式:)
- 1. 什么是从表格中读取的最佳方式?
- 2. 从一条线中提取字符串价格的最佳方式是什么?
- 3. Javascript中删除html表格的最佳方式是什么?
- 4. 什么是使用java提取zip文件的最佳方式
- 5. 从git仓库中提取树的最佳方式是什么?
- 6. 抓取网站数据(内容)的最佳方式是什么?
- 7. 保存/加载数组内容到文件的最佳方式是什么?
- 8. 过滤数组列表内容的最佳方法是什么?
- 9. 在内存中格式化SyntaxTree的最佳方式是什么?
- 10. 什么是用JavaScript插入内容到HTML文档的最佳方式
- 11. 在HTML表单提交中发布有序列表的内容的最佳方式是什么?
- 12. 在AJAX TabContainer中包含内容的最佳方式是什么?
- 13. 使用Java构建HTML文件的最佳方式是什么?
- 14. 从嵌入式资源中读取XML文件的最佳方式是什么?
- 15. 在Obj-c中组织一组的最佳方式是什么?
- 16. 在C#中读取/写入数组内容到二进制文件的最佳方式是什么?
- 17. 显示/浏览内容繁多的XML文件的最佳方式是什么?
- 18. 从文件中提取版本字符串的最佳方法是什么?
- 19. 从单词组中获取电子邮件ID的最佳方式是什么?
- 20. 组织特征文件的最佳方式是什么?
- 21. 在C#中从矩形数组中提取一维数组的最佳方式是什么?
- 22. 什么是保存ArrayList内容的最佳方式?
- 23. 什么是备份Azure Blob存储内容的最佳方式
- 24. 什么是将内容添加到模板的最佳方式?
- 25. 绘制分层OpenGL ES内容的最佳方式是什么?
- 26. 什么是清空IFrame内容的最佳方式
- 27. 缓存包含动态内容的静态html的最佳方式是什么?
- 28. 根据设备加载HTML内容的最佳方式是什么?
- 29. 在Erlang中表示C数组的最佳方式是什么?
- 30. 从Java编写excel文件的最佳方式是什么?