2015-03-03 67 views
-2

客户要求我从存储在保存在保存在保管箱中的zip存档的pdf文件中提取文本。我想知道如何(以及是否有可能)使用PowerShell访问这些文件。 (我已阅读过有关可用于访问Dropbox中的东西的API,但不知道如何将其集成到PowerShell脚本中)。理想情况下,我最好避免下载它们,因为其中大约有7000个。我想要的是一个脚本,可以在Dropbox中在线阅读这些文件的内容,然后将相关数据(文本)处理成电子表格。如何从保存在Dropbox上的zip文件中使用PowerShell提取文本?

只是为了重申 - (i)是否可以从存储在zip存档中的Dropbox(及其中的文本)访问pdf文件,以及(ii)如何使用PowerShell来解决此问题 - 什么类型的脚本/指令是否需要编写

注意:我仍然找到PowerShell的方法,所以我很难详细说明 - 但是,当我变得更熟悉时,我会很高兴地更新这篇文章。对Dropbox的

+0

如果您'如果你能给我写一个有用的解释,那会很好。但显然,获得上述答案会更有帮助,或者至少可以指出类似的问题。 – CodeMaster 2015-03-03 11:20:02

+0

最好的猜测是,你会问_initially_一个完整的解决方案,没有特定的问题,我们可以帮助你。 SO不是代码写入服务。你说你只想要朝正确的方向推进。这对你可能会有用,对社区来说长期来说不是一个好问题。 – Matt 2015-03-03 13:35:39

+0

感谢您的评论。这个问题涉及编写代码 - 正则表达式和PowerShell脚本,而主题不是SO,它是数据提取。对于我来说,目前仍然很棘手,因为我仍然在学习PowerShell,但我会很高兴地这样做,因为当我了解更多时。 – CodeMaster 2015-03-03 14:04:01

回答

0

唯一正式支持的编程接口是Dropbox的API:

https://www.dropbox.com/developers

它不会让你访问文件的内容,例如,使用/文件(GET):

https://www.dropbox.com/developers/core/docs#files-GET

但是,它不提供任何远程与zip文件内容交互的功能。 (Dropbox只是将zip文件视为任何其他文件的数据blob)。既然如此,正是你想要的是不可能的,因为你无法首先查看zip文件,而无需先下载它们。 (同样,即使PDF文件不在zip文件中,Dropbox API当前也没有提供任何能够远程搜索PDF文件中的文本的功能,但您仍然需要下载它们。)

相关问题