2014-08-31 97 views
1

我们能否指数从WARC的WARC文件直接导入Solr的不提取和存储一些中间文件(例如:HTML格式)第一文件在硬盘上?我们可以直接将WARC文件索引到Solr吗?

换句话说,我们可以索引这些文件而不在硬盘上存储任何东西吗?

回答

0

您应该在客户端上完成它,因为您不清楚这些文件需要哪种模式。然后,您可以将内容以流媒体的方式展开到内存中,如果需要,可以使用客户端Tika处理它,并将所需的任何文档表示形式发送给Solr。

相关问题