0
我正在做PDF电子书上的主题建模,并且需要逐段提取文本。为此,我使用apache pdfBox,它可以有效地从pdf中提取文本。从pdf中提取段落
PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText(pdDoc);
但我不能单独提取段落。此工具提供了设置段落开始/结束标识符的方法,但我需要知道此段落中断标识符。
有没有办法做到这一点,或者如果他们是一些其他工具可用,可以有效地做段落提取?