2017-10-05 109 views
0

我有许多不同格式的扫描pdf与许多不同的字段。将其视为已扫描的发票。我需要从扫描的pdf中提取信息并输出字段和每个字段中的文本。用于从PDF中提取数据的自然语言处理

我有一个OCR工具,可以很好地提取原始格式中的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段和它们的值。由于发票格式很多,在这种情况下使用OCR不是一种选择。 NLP如何帮助我解决这个问题?

回答

0

大多数NLP工具旨在从语句中提取数据。如果您没有标点符号,则可能无法正常工作。如果您正在使用NLU服务,例如https://mynlu.com,您还需要提供常用短语的示例以及其中包含的相关数据(实体)的位置。如果你可以把它分解成语句,那么像myNLU或其他NLU服务(LUIS,Watson等)可以在10分钟内让你离开<。