2014-09-13 55 views
0

我试图从数据库中索引一些数据。数据库表中的每个页面都有一些链接的文档。Solr - 无法使用tika嵌套实体解析文件

我注意到索引一般可以工作,但是来自Tika的字段'text'完全被忽略并且根本没有获取,在日志中没有任何合理的例外。

我的数据congig:http://pastebin.com/XdwenPTE,我的架构:http://pastebin.com/zXEuFTHE,我Solr的配置:http://pastebin.com/qLiuT0tq

你可以看看我的CONFIGS,并告诉我,如果我中省略什么?当我对索引数据进行查询时,甚至没有字段“文本” - 为什么?

[编辑] 我改变传递给提卡到文件路径:

url="${page_resource_list.FILE_PATH}" 

但还是文件内容根本没有被编入索引。有任何想法吗?我有一些例外情况,说没有找到文件(这很好,因为有些文件丢失),但对现有文件的任何问题都没有例外。而蒂卡没有索引任何东西。

它似乎与此处所述的相同问题:Solr's TikaEntityProcessor not working - 但是这真的不是固定的吗?

回答

0

FILE_PATH的实体引用是${page_resource_list.FILE_PATH}而不是${page_content.FILE_PATH}(它只将CONTENT定义为列)。

您还有一个LogTransformer,它可以在编制索引时为您提供关于字段实际内容的更好调试信息,从而为您提供帮助。

+0

我更新了我的问题 – user1209216 2014-09-15 06:16:58

+0

这是我的错。来自dabase的文件路径是错误的。不过,我也有多值域的其他问题,但我会为它创建另一个问题。 – user1209216 2014-09-15 09:11:25