Jackrabbit Text阿拉伯语搜索PDF文件

我能够在Jackrabbit中使用以下代码成功地执行阿拉伯文本文件的文本搜索。但对于阿拉伯文PDF文件，相同的搜索不起作用。如果我在文件中给出一些非阿拉伯文文本，它给了我正确的结果，但是如果我在文件中给出了一个阿拉伯文字，它不会给我任何结果。Jackrabbit Text阿拉伯语搜索PDF文件

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2); 

QueryResult result = query.execute(); 
RowIterator ri = result.getRows(); 

    while (ri.hasNext()) {  
    Row row = ri.nextRow(); 
    System.out.println("Row: " + row.toString()); 
}

感谢

来源

2011-04-13 Renju

可能PDFBox的无法解析文件。 In this case, there should be a warning in the log file。

来源

2011-04-28 11:51:16

是的，我在存储库中添加PDF文件时收到了该警告。但是，你能告诉我我能做些什么来使PDFBox解析带有阿拉伯文内容的文件吗？ – Renju 2011-05-03 06:03:26

恐怕我不能回答这个问题，因为我不熟悉PDFBox。一个快速的谷歌搜索确实给了一些结果，但看起来更新的版本（也许还是测试版）的PDFBox应该能够解析它。如果没有，请在PDFBox列表中提问，或者在此提出另一个问题。 – 2011-05-03 06:15:14

Jackrabbit Text阿拉伯语搜索PDF文件

回答

相关问题