提取PDF部分

我正在尝试提取PDF文件的各个部分，以用于文本分析。我尝试使用pdfextract来完成此操作。然而，一个命令，例如提取PDF部分

pdf-extract extract --regions --no-lines Bauer2010.pdf

仅提取的区域的坐标(x,y)，如在下面的例子。

<region x="226.32" y="750.47" width="165.57" height="6.37" 
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and 
Counseling 79 (2010) 315-319</region>

是否可以提取PDF的各个部分？

来源

2016-07-29 Adam_G

你可能应该明确你的意思是“PDF的各个部分”？ – mkl

看看http://text-analyzer.com你可以上传你的PDF文件，它会将它转换成适合自然语言处理的格式。一旦转换成文本文件，它就可以处理文件，并通过情感分析将其分解成句子。它有超过40种不同类型的句子视图，您可以在这些视图上标记章节。那些标记的句子可以导出。

来源

2016-08-29 23:08:15 Rob

提取PDF部分

回答

相关问题