用于从PDF中提取数据的自然语言处理

我有许多不同格式的扫描pdf与许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出字段和每个字段中的文本。用于从PDF中提取数据的自然语言处理

我有一个OCR工具，可以很好地提取原始格式中的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段和它们的值。由于发票格式很多，在这种情况下使用OCR不是一种选择。 NLP如何帮助我解决这个问题？

2017-10-05 rookie

大多数NLP工具旨在从语句中提取数据。如果您没有标点符号，则可能无法正常工作。如果您正在使用NLU服务，例如https://mynlu.com，您还需要提供常用短语的示例以及其中包含的相关数据（实体）的位置。如果你可以把它分解成语句，那么像myNLU或其他NLU服务（LUIS，Watson等）可以在10分钟内让你离开<。

来源

2017-10-05 17:44:17

用于从PDF中提取数据的自然语言处理

回答

相关问题