2017-05-05 42 views
3

我正在对Google Analytics和其他来源的数据进行一些机器学习和数据分析。跑步机在本地学习。我应该使用Datalab的本地实例还是Jupyter?

我已经设法在本地部署Cloud Datalab并连接到我的BigQuery,但是我不确定这是否是最好的方法。我可以看到,使用香草Jupyter笔记本和熊猫我仍然可以连接到BigQuery。普通Jupyter的优势在于它不需要Docker,而且还具有Python 3.

所以我想知道除了SQL语法突出显示之外,在本地使用Cloud Datalab进行此操作还有什么好处吗?简而言之,Cloud Datalab的所有优势仅与云计算相关,还是它与Jupyter相比在本地部署方面也有优势?

谢谢!

回答

2

即使您使用的是常规Jupyter,您仍然可以安装Datalab python package以使用大部分datalab功能。

我在本地运行时使用Datalab超过Jupyter理由是:

  1. 运行码头工人带来了良好的测试环境。
  2. PyDatalab带来了BigQuery API和魔法,它们创建了一个很好的BigQuery操场。 google.datalab.bigquery提供的不仅仅是创建一个不包含查询的数据框。
  3. BigQuery与图表集成(%%图表可以采用BQ查询)。
  4. 机器学习工具和MLToolbox。
  5. 不同的用户界面。

Jupyter + Datalab软件包为您提供2,3和4。

+0

好的,谢谢,我期待尽可能多!我现在正在用Jupyter与datalab导入。我有这样的导入:import datalab.bigquery,它与google.datalab.bigquery有什么不同呢?这是你在答案中提到的吗? – Tom

+0

datalab.bigquery是Beta库,并保持在每个人的测试笔记本没有中断。 google.datalab.bigquery是GA库。最大的变化是对标准SQL的改进支持。 –

+0

好的谢谢克里斯迈尔斯,这是我一直试图理解的。如果所有已弃用的回购站都会有一个说明,说明哪个用于新项目而没有遗留代码,这一点很有帮助,因为我一直在浏览大量同样的事情的库,知道只有一个是当前的版! – Tom

相关问题