2017-05-04 60 views
0

我的任务是使用IBM Watson将PDF转换为文本文件或任何可能对我的任务有用的输出。使用IBM Watson文档转换器解析PDF

PDF是由客户创建并以各种格式发送给我们的采购订单。客户可以按照他们希望的方式创建这些采购订单,我必须解析它们。

我曾尝试只使用文档转换器使用默认设置,输出是所有的地方。

任何意见接近,这将是巨大的...也许一起使用IBM沃森的情报,以便更好地发现,即使它们不与定义这些订单所需的信息线的东西。

感谢您的任何帮助。

回答

3

你可以很容易地看到从IBM开发的API Reference文档,以确保我的回答。

我假设你使用curl,但在链接里面有一些例子NodejsPython,Java如果你想。但使用条件实际上是相同的

检查例如转换方法,卷曲:

curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15" 

里面file,你会选择从您的文件,格式,比如:PDF 要构建own conversion,在卷曲,替换该文件被称为与自己的PDF,HTML或Word文档文件,并将config中的"conversion_target"替换为要转换为的格式。有效值为"answer_units","normalized_html""normalized_text"

  • 您可以在GitHub here中看到IBM Developers的一个示例。

  • 叉这个例子here

  • 在官方文档中,你可以看到教程的文件转换使用此服务,check here

+2

我想补充这一点。您在PDF中看到的并不总是电脑会看到的东西。文本可以不按顺序存储,也可以显示图形(屏幕截图),而底层文本与所看到的内容无关。最快的测试方法是将文本复制/粘贴到文本编辑器中,然后查看结果。如果它不完美,转换不太可能做得更好。 –