2017-02-09 33 views
-1

我正在使用Azure和现收现付费订阅。我曾经通过HDInsight为我自己创建了Spark集群,并且收取了比预期更多的费用。之后,我搜索了如何以经济的方式使用它,并发现人们通常会删除它们的群集以节省成本。我想知道是否有其他方法让个人用户使用Spark集群,并且花费很少。是否有其他订阅可以用来节省成本?提前致谢。如何使用Azure HDInsight获取更少费用

+1

您选择了多大规模的虚拟机?根据您的工作负载,更经济的尺寸也可能工作。 – GregGalloway

+0

我使用D12(4核心)和D4(8核心)。我发现D4在这个页面上很贵(https://azure.microsoft.com/en-au/pricing/details/hdinsight/)。 –

回答

1

使用PowerShell或ARM模板可以自动创建和删除群集。你是对的,这是典型的模式。

您也可以看看Azure Data Lake Analytics,它针对的是大数据,但是是一种按付费查询模式。

+0

我明白了。我应该尝试通过PowerShell自动执行创建和删除群集的过程,并且只使用少量内核来使用较小的VM大小。这将合理减少费用。我还发现了关于如何使用Azure自动化的文章(http://www.datamic.net/blog/automate-provisioning-hdinsight-clusters-with-powershell-and-azure-automation)。谢谢 –

+0

也可以查看脚本操作,以便在创建时自动执行某些活动。这将节省重新创建任何定制的时间。 –

0

此外:请留意您的数据集,尤其是您不需要的大数据集。确保你有一个高效的柱形格式进行处理(Parquet,ORC),然后用可分割压缩(bzip2,LZO,snappy)压缩它。

您甚至可能会发现,有时重新计算数据集比保留数据集更便宜。

在WASB上意外地保留了比您需要的更多的数据是非常容易的,即使在群集关闭的情况下也会运行帐单。

最后:确保您的群集被拆除。这里至少对于AWS群集来说,通常的做法是使用Jenkins按计划启动/停止群集。看起来Azure自动化在那里很适合Azure。

相关问题