2017-04-21 249 views
-1

我想从Azure blob存储中的数据中的另一列创建派生列;任何关于我应该从哪里开始的指针。我正在处理的数据集是一个结构化的数据集。Azure blob存储;派生列

input dataset= [col_a, col_b, col_c] 
output_dataset= [col_a, col_a^2, col_a*3, col_b] 

回答

0

如果数据集的大小不是很大,可以尝试以下步骤。

  1. 从Azure blob存储中读取所有数据。
  2. 将数据反序列化为数据集。
  3. 向数据集添加新列并计算此列的值。
  4. 反序列化数据集并将数据保存回Azure blob存储。

否则,您需要从Azure blob storage中读取数据集,计算新列的值并将其保存到一个新的行,这取决于您如何将数据集存储在blob中。

+0

感谢Amor对此的回应..我正在寻找类似于Oracle数据库中的虚拟列的东西,在那里您填充数据库中的记录,并且虚拟列自行填充。我想避免使用spark来获取数据并以某种频率安排此活动。 –

+0

我还没有找到任何方法在存储级别实现这种类型的列。由于Azure存储服务以较低的价格收费。我建议你添加一个物理列来存储你想避免以某种频率获取数据的数据。 – Amor