2017-01-23 79 views
-3

我有一个pdf文件列表,其中包含不同数量的页面和演示文稿。 每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和句法中。 我需要知道如果我需要建立一台机器学习做这个,如果这是算法和技术适合我的情况。 注:我有一个庞大的pdf文件数据集来训练模型。机器学习:从文件列表中提取关键字

+0

您的问题是简单地提取信息还是一经提取就分析?如果后者是这种情况,你的分析的目的是什么?没有这些信息,任何人都无法指导你。另外提及你迄今为止提取文本所尝试的内容。 – Fruitspunchsamurai

+0

现在我只需要提取这些信息。 – abderr080

+0

您能举一个例子来说明您的问题中数据的结构吗?根据数据的结构,你可以使用[Tabula](http://tabula.technology/)。 – Fruitspunchsamurai

回答

0

所以如果你想在Python中做到这一点,似乎PyPDF2是要走的路。您应该能够阅读并从PDF中提取所需的文本数据。 Automate the boring stuff有使用PyPDF2的例子。

+0

我使用pypdf2与ocr结合使用,因为我扫描了pdf以从pdf文件中获取文本。我关心的是如何从本文中提取一些信息,如公司名称,频率,模块名称等。这些信息被包装在不同的上下文和短语中。我的pdf也是由表格构成的,我无法在文本转换后变得格式良好。 – abderr080

+0

上下文和短语是否有一些基础结构?如果你自己无法辨别数据的底层结构,我不确定你可以写些什么。有没有一种方法可以使用正则表达式来搜索公司名称和其他东西? – Fruitspunchsamurai

+0

感谢您的回复。我想我现在要搜索数据的结构。我认为Tabula可能对表格分析有很好的帮助。 – abderr080