2016-09-15 138 views
2

我想使用Solr来索引某些库,它们代表fb2格式的图书。 其实fb2只是xml,与xsd format类似。 但是,post.jar忽略* .fb2文件,我不明白如何在FB2文件值映射到索引字段,如:Solr:索引fb2文件

<book-title>some book</book-title> 

...到“书标题”字段中的索引。 我应该创建一个插件还是其他的东西?

回答

3

您应该看看Solr数据导入处理程序(DIH)。

https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the+Data+Import+Handler

在Solr的实例文件夹你有一个RSS导入示例。如果您在RSS数据-config.xml文件看,你会看到他们如何使用XPathEntityProcessor映射从XML到Solr的领域,如:

下面是一些更多的信息:http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx

我过去也编写了Tika解析器来处理特定的文件格式。

https://lucidworks.com/blog/2010/06/18/extending-apache-tika-capabilities/

更多的灵活性,你可以用你喜欢的编程语言只是阅读您的文件和使用API​​将数据发送到Solr。我们不得不为最近的应用做这件事,因为DIH对于我们想要实现的功能不够灵活。