Q

从pdf中提取段落

2011-03-15 209 views 0 likes

0

我正在做PDF电子书上的主题建模，并且需要逐段提取文本。为此，我使用apache pdfBox，它可以有效地从pdf中提取文本。从pdf中提取段落

PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText（pdDoc）;

但我不能单独提取段落。此工具提供了设置段落开始/结束标识符的方法，但我需要知道此段落中断标识符。

有没有办法做到这一点，或者如果他们是一些其他工具可用，可以有效地做段落提取？

2011-03-15 jiteshnambiar

A

回答

1

PdfNitro是我发现提取段落的最佳工具。

此工具的唯一问题是它将分页符视为段落中断，否则它工作正常。该工具可在14天内试用版本进行测试。

2011-04-17 01:47:31 Jitesh

相关问题