2014-09-30 85 views
1

我有项目将在jav中,我需要从科学PDF文档中筛选出以下信息。 作者,标题和参考文献。 从PDF文档中获取这些特定信息有几个问题。 1.撰写论文没有具体的方法,因此每篇论文看起来都不一样。 2.对于程序而言,很难区分名称和实际描述的对象。 还有一些问题,但这会让我们离真正的问题太远。 我的问题是,是否可以选择获取某种类型的PDF文档中的信息, ,比如在此PDF中使用了哪种字体大小,或者使用了哪种不同的字体? 是否有任何方法或编辑器可以以可理解的方式查看pdf内容,以便我可以在需要的信息周围找到标志性功能。所以我可以让一个algorythem正确地提取它们。 Thx为您提供帮助。 我很抱歉我的英语不是我的母语。如何访问特定的pdf信息?

+0

看起来使用IText – kolossus 2014-09-30 14:58:12

回答

2

您可以使用SDK(如Apache PDFBox)来读取PDF文件的属性以及其他文件内容。

+1

Thx.I会试一试。 – 2014-10-01 16:19:40

+0

不要忘记接受答案,如果它解决了你的问题:) – derelict 2014-10-06 10:03:49

+1

对不起。现在接受。 – 2014-10-07 10:33:47