机器学习：从文件列表中提取关键字

-3

我有一个pdf文件列表，其中包含不同数量的页面和演示文稿。每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和句法中。我需要知道如果我需要建立一台机器学习做这个，如果这是算法和技术适合我的情况。注：我有一个庞大的pdf文件数据集来训练模型。机器学习：从文件列表中提取关键字

2017-01-23 abderr080

您的问题是简单地提取信息还是一经提取就分析？如果后者是这种情况，你的分析的目的是什么？没有这些信息，任何人都无法指导你。另外提及你迄今为止提取文本所尝试的内容。 – Fruitspunchsamurai

现在我只需要提取这些信息。 – abderr080

您能举一个例子来说明您的问题中数据的结构吗？根据数据的结构，你可以使用[Tabula]（http://tabula.technology/）。 – Fruitspunchsamurai

所以如果你想在Python中做到这一点，似乎PyPDF2是要走的路。您应该能够阅读并从PDF中提取所需的文本数据。 Automate the boring stuff有使用PyPDF2的例子。

2017-01-23 18:41:24 Fruitspunchsamurai

我使用pypdf2与ocr结合使用，因为我扫描了pdf以从pdf文件中获取文本。我关心的是如何从本文中提取一些信息，如公司名称，频率，模块名称等。这些信息被包装在不同的上下文和短语中。我的pdf也是由表格构成的，我无法在文本转换后变得格式良好。 – abderr080

上下文和短语是否有一些基础结构？如果你自己无法辨别数据的底层结构，我不确定你可以写些什么。有没有一种方法可以使用正则表达式来搜索公司名称和其他东西？ – Fruitspunchsamurai

感谢您的回复。我想我现在要搜索数据的结构。我认为Tabula可能对表格分析有很好的帮助。 – abderr080

回答