2015-10-07 74 views
0

在PubMed数据源中,我需要将输出推送到一个Kafka队列中。每个源都可以被视为一个Kafka主题。 (我知道Kafka中的概念并使用Python探索Kafka)将PubMed数据推送到Kafka

我能够通过FireFTP查看PubMed数据。

任何人都可以帮助如何前进吗?

回答

0

您将需要使用从FTP下载数据并将其假脱机至Kafka的服务。 Apache Flume正是如此。配置起来非常简单。您可以使用FTP https://github.com/keedio/flume-ftp-source的客户源,也可以使用cron作业将文件下载到假脱机目录并让flume从该处接收文件。 Flume有一个非常体面的卡夫卡水槽,允许连续写卡芙卡。