0
我试图用Apache Nutch抓取数据并用Apache Solr对其进行索引。将Apache Tika应用于Solr而不是Nutch有什么好处
作为这一部分我也想分析内容。我试图找出将Tika应用于Nutch,Solr还是两者都更好。
我试图用Apache Nutch抓取数据并用Apache Solr对其进行索引。将Apache Tika应用于Solr而不是Nutch有什么好处
作为这一部分我也想分析内容。我试图找出将Tika应用于Nutch,Solr还是两者都更好。
尽早应用它,但一定要保留原始的全保真文档。
如果你知道最终你将把它减少到一组元数据字段并摆脱其余部分,那么没有必要传递一个二进制文件。