2013-05-07 38 views
1

elasticsearch有几个提交文档(http,thrift,memcached)的API。根据所用资源提交文档的最有效方式是什么?将文档提交给elasticsearch的最有效方法

我的用例即将有相当密集的文档流。将文件打包成多部分形式(而不是做PUT)是一种资源浪费。 AFAIK节俭还重新处理所有的文件,将其包装到节俭运输。可能是类似memcached的API更高效?

+0

也许这也很有趣? http://www.elasticsearch.org/guide/reference/api/bulk-udp/ – javanna 2013-05-07 15:18:11

+0

您希望按秒索引多少个文档?多大?这似乎有点不成熟的优化。大多数ES用户使用HTTP或Java API(我的情况),它似乎具有良好的性能。 – 2013-05-07 16:38:47

+0

我期望1Gbps的流量用于索引。就平均而言,它将是每秒30个5MB文件。 – 2013-05-07 17:04:15

回答

0

这取决于你的情况。至少有两种方法:

  1. 在搜索后端之前做文档提取。然后做HTTP PUT。节省流量。

  2. 您可以将数据传输外包给不同的机制(NFS/HTTP PUT/FTP /其他)。数据交付后,可以导入FS River

相关问题