2011-04-01 82 views
2

我正在尝试使用pdftohtml,但我发现偶尔难以正确解析表格。它将来自两列的文本分组到单个单元格中,这使得我试图解析所得到的数据徒劳!pdftohtml的替代品

请注意,这只会在PDF中出现一次或两次,并且相当难以预测。

我试过最新版本的pdftohtml(包括0.40a测试版),但无济于事。

是否有人知道任何可能值得尝试的Linux兼容等价物?

感谢,

山姆

+0

您所提交一个错误报告?众所周知,PDF是难以解析的,并且令人难以置信的时间流入了poppler工具。你最好的选择可能是看看你能做什么来帮助上游。 – efrey 2012-05-15 14:11:13

回答

0

pdf2htmlEX是最好的PDF到HTML我见过。

安装:brew install pdf2htmlex

我不得不使用brew install -f pdf2htmlex

运行例如:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

创建与.html和ref'd图像的新目录