我正在使用PDFBox从PDF中提取文本。 PDF有一个表格结构,它非常简单,列间距也非常宽。保留PDFBox文本提取中的“long”空格
这个工作非常好,除了所有类型的水平空间都被转换为单个空格字符,所以我不能再分开各列(一列中的空格看起来就像列之间的空格)。
我明白,一个通用的解决方案是很辛苦,但在这种情况下,列是真的相距甚远,使得具有“长间隔”和“字与字之间的空间”之间的简单区别就足够了。
有没有办法告诉PDFBox将多于x英寸的水平空白转换为单个空间以外的东西?比例方法(x英寸变成y空格)也可以工作。
pdftotext C library/tool有一个'-layout'开关,试图保留布局。基本上,如果我可以用PDFBox来模拟,那将是完美的。
你可能想看看[这个答案](https://stackoverflow.com/a/45842515/1729265)。 – mkl 2017-10-16 04:18:41