2013-03-19 84 views
2

我想索引文本文件。搜索了很多后,我了解了Apache tika。现在在我学习Apache tika的一些网站中,我了解到Apache tika将其文本转换为XML格式,然后将其发送到solr。但在转换时只创建一个标签示例 ....... 现在,我希望索引的文本文件是一个tomcat本地主机访问文件。这个文件在GB中。我无法存储它和单个索引。我希望每一行都有行号 ....... 因此,我可以轻松地检索匹配行。如何使用apache solr索引文本文件

这可以在Apache Tika中完成吗?

回答

3

Solr与Tika支持从多种文件格式中提取数据。
支持的文件格式的完整列表,可以发现@link

可以作为输入提供上述任何一种文件格式和提卡将能够自动检测文件格式,并从这些文件中提取文本并将其提供给Solr进行索引。

编辑: -
Tika不会将文本文件转换为XML,然后再将其转到Solr。 Tika将按照定义的映射提取元数据和文件内容并填充Solr中的字段。

您必须将整个文件作为输入提供给solr,这会作为单个文档索引,或者您必须逐行读取文件并将其作为单独文档提供给Solr。
Solr和Tika不会为你处理这件事。

+0

对不起,改变了问题。搜索后,我知道你有什么建议,所以我已经修改了一个问题。你知道答案吗? – 2013-03-19 11:24:41

+0

更新了答案。 – Jayendra 2013-03-19 13:02:07

+0

“*您必须将整个文件作为输入提供给solr *” 您可以使用如何执行此操作的示例更新您的问题吗? – 2013-06-13 09:09:12

1

您可能想要查看DataImportHandler以将文件解析为行或条目。对于已经拥有内部结构的东西来说,这比运行Tika更好。