2017-03-16 59 views
1

是否有可能使用U-SQL解压缩带有多个.csv文件的zip文件夹并对其进行处理?可能使用带有多个.csv文件的.zip文件?

每个文件都有不同的模式。

+0

你的zip文件格式是什么?值得注意的是'EXTRACT'本身可以处理gzip文件,不需要额外的编程,按照[最近的回答](http://stackoverflow.com/questions/42711229/how-to-preprocess-and-decompress- GZ-文件上Azure的数据湖店/ 42718898#42718898)。 – wBob

回答

3

所以你在这里有两个问题。

  1. 从ZIP文件中提取。
  2. 处理内部不同的内容。

回答你的问题。是否有可能?... 是的

如何?...您需要编写一个用户定义的提取器来完成它。

首先检查了MSDN提取页面:

https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx

对提取的类需要从IExtractor继承与遍历存档内容的方法。

然后输出每个内部文件依次传递文件名到提取器,以便您可以为每个数据集定义列。

来源:https://ryansimpson.net/2016/10/15/query-zipfile-adla/

另一种选择是使用Azure的数据工厂在自定义活动和输出的CSV内容ADL商店进行解压操作。这将涉及一些更多的工程,而Azure批处理服务。

希望这会有所帮助。