我的任务是使用IBM Watson将PDF转换为文本文件或任何可能对我的任务有用的输出。使用IBM Watson文档转换器解析PDF
PDF是由客户创建并以各种格式发送给我们的采购订单。客户可以按照他们希望的方式创建这些采购订单,我必须解析它们。
我曾尝试只使用文档转换器使用默认设置,输出是所有的地方。
任何意见接近,这将是巨大的...也许一起使用IBM沃森的情报,以便更好地发现,即使它们不与定义这些订单所需的信息线的东西。
感谢您的任何帮助。
我的任务是使用IBM Watson将PDF转换为文本文件或任何可能对我的任务有用的输出。使用IBM Watson文档转换器解析PDF
PDF是由客户创建并以各种格式发送给我们的采购订单。客户可以按照他们希望的方式创建这些采购订单,我必须解析它们。
我曾尝试只使用文档转换器使用默认设置,输出是所有的地方。
任何意见接近,这将是巨大的...也许一起使用IBM沃森的情报,以便更好地发现,即使它们不与定义这些订单所需的信息线的东西。
感谢您的任何帮助。
你可以很容易地看到从IBM开发的API Reference文档,以确保我的回答。
我假设你使用curl
,但在链接里面有一些例子Nodejs
,Python
,Java
如果你想。但使用条件实际上是相同的。
检查例如转换方法,卷曲:
curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"
里面file
,你会选择从您的文件,格式,比如:PDF
要构建own conversion
,在卷曲,替换该文件被称为与自己的PDF,HTML或Word文档文件,并将config
中的"conversion_target"
替换为要转换为的格式。有效值为"answer_units"
,"normalized_html"
或"normalized_text"
。
您可以在GitHub here中看到IBM Developers的一个示例。
叉这个例子here。
在官方文档中,你可以看到教程的文件转换使用此服务,check here。
我想补充这一点。您在PDF中看到的并不总是电脑会看到的东西。文本可以不按顺序存储,也可以显示图形(屏幕截图),而底层文本与所看到的内容无关。最快的测试方法是将文本复制/粘贴到文本编辑器中,然后查看结果。如果它不完美,转换不太可能做得更好。 –