2015-01-26 87 views
2

我试图将一些数据导入到数据流中,但数据不在云存储中 - 这是一个rss feed,我通常会每隔x个小时检查一次。有没有一种方法可以直接使用SDK,或者我必须首先以其他方式将文件存储到云存储中。Http获取/张贴到数据流

在此先感谢。

回答

2

数据流不提供RSS源的来源。

虽然您可以从ParDo发出HTTP请求来获取数据。例如,假设提要允许您在某个时间范围内提取邮件。然后,您可以创建一个输入集合,其中每个记录表示一段时间(例如一个小时)。然后,您可以编写一个ParDo,它将获取该时间范围内的消息并发出它们。

如果您是流式早期访问预览的一部分,那么 一个解决方案就是编写一个App Engine应用程序(或同等产品),每隔X小时检查一次RSS源,然后使用Google Cloud PubSub发布数据。然后您可以使用PubSubIO来读取Dataflow中的这些事件。

+0

这是有道理的...我试图创建类似HttpIO.Read,但我想再次出现问题,因为在应用程序引擎上我们提供了获取url API,但是当我在本地测试api不可用时。你知道是否有一个简单的解决方案。我已经看了谷歌HTTP客户端,但不能看到一个“明显”的方式来使用它:( – billy1380 2015-01-27 10:19:33

+0

感谢您的酒吧子建议,值得一试我 – billy1380 2015-01-27 10:20:36

+0

我不知道我明白App Engine问题的问题。您是否澄清了您尝试访问DirectPipelineRunner的内容?您是否试图访问App Engine API或App Engine上运行的应用程序? – 2015-01-27 18:43:39