我正在使用Azure和现收现付费订阅。我曾经通过HDInsight为我自己创建了Spark集群,并且收取了比预期更多的费用。之后,我搜索了如何以经济的方式使用它,并发现人们通常会删除它们的群集以节省成本。我想知道是否有其他方法让个人用户使用Spark集群,并且花费很少。是否有其他订阅可以用来节省成本?提前致谢。如何使用Azure HDInsight获取更少费用
回答
使用PowerShell或ARM模板可以自动创建和删除群集。你是对的,这是典型的模式。
您也可以看看Azure Data Lake Analytics,它针对的是大数据,但是是一种按付费查询模式。
我明白了。我应该尝试通过PowerShell自动执行创建和删除群集的过程,并且只使用少量内核来使用较小的VM大小。这将合理减少费用。我还发现了关于如何使用Azure自动化的文章(http://www.datamic.net/blog/automate-provisioning-hdinsight-clusters-with-powershell-and-azure-automation)。谢谢 –
也可以查看脚本操作,以便在创建时自动执行某些活动。这将节省重新创建任何定制的时间。 –
此外:请留意您的数据集,尤其是您不需要的大数据集。确保你有一个高效的柱形格式进行处理(Parquet,ORC),然后用可分割压缩(bzip2,LZO,snappy)压缩它。
您甚至可能会发现,有时重新计算数据集比保留数据集更便宜。
在WASB上意外地保留了比您需要的更多的数据是非常容易的,即使在群集关闭的情况下也会运行帐单。
最后:确保您的群集被拆除。这里至少对于AWS群集来说,通常的做法是使用Jenkins按计划启动/停止群集。看起来Azure自动化在那里很适合Azure。
- 1. 如何使用Azure自动化从HDInsight启动Spark 2.0
- 2. 如何在带有Azure Hdinsight的Visual Studio中使用Pig
- 3. Azure HDInsight中的Pyparsing
- 4. 如何使用Windows Azure ACS从Facebook获取更多声明?
- 5. 如何使用Azure SDK获取Azure VM的公共IP
- 6. Azure HDInsight MapReduce AdditionalInputPath被忽略
- 7. azure HDInsight脚本动作
- 8. 使用本地驱动器在Azure HDInsight上运行Spark程序
- 9. HDInsight Azure上的SparkHistory不显示任何应用程序
- 10. 如何使用svn更新获取所有更改,使用TortoiseSVN
- 11. 从Apple获取代码签名证书需要多少费用?
- 12. 如何使用twilio api获取语音通话费
- 13. Azure存储如何计费?
- 14. 如何在使用blob时获取azure blob的更新副本状态StartCopyAsync
- 15. 免费试用多少个Azure虚拟机实例
- 16. Put /使用Android在Azure上获取BLOB
- 17. Azure中获取令牌使用JavaScript角
- 18. 如何使用Azure Easy Auth获取访问令牌?
- 19. 如何使用MS Graph在Azure AD中获取目录扩展
- 20. 如何使用Spark/Scala从Azure blob获取文件列表?
- 21. 如何使用PowerShell获取Azure存储表中的一行?
- 22. 如何使用Azure存储模拟器blob端点获取blob?
- 23. 如何使用R获取Azure ML中的置信区间?
- 24. 如何使用更少的活动
- 25. 我可以缩小azure hdinsight群集吗?
- 26. 微软Azure HDinsight Ambari Sqoop和Postgres
- 27. Azure SQL作为HDInsight的外部Sqoop Metastore
- 28. 什么是我webHDFS在Azure HDInsight网址?
- 29. 如何在Azure HDInsight的Spark Cluster中配置HBase?
- 30. 如何在Azure HDInsight上的Spark中设置镶木块大小?
您选择了多大规模的虚拟机?根据您的工作负载,更经济的尺寸也可能工作。 – GregGalloway
我使用D12(4核心)和D4(8核心)。我发现D4在这个页面上很贵(https://azure.microsoft.com/en-au/pricing/details/hdinsight/)。 –