2011-04-13 64 views
0

我能够在Jackrabbit中使用以下代码成功地执行阿拉伯文本文件的文本搜索。但对于阿拉伯文PDF文件,相同的搜索不起作用。如果我在文件中给出一些非阿拉伯文文本,它给了我正确的结果,但是如果我在文件中给出了一个阿拉伯文字,它不会给我任何结果。Jackrabbit Text阿拉伯语搜索PDF文件

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2); 

QueryResult result = query.execute(); 
RowIterator ri = result.getRows(); 

    while (ri.hasNext()) {  
    Row row = ri.nextRow(); 
    System.out.println("Row: " + row.toString()); 
} 

感谢

回答

0

可能PDFBox的无法解析文件。 In this case, there should be a warning in the log file

+0

是的,我在存储库中添加PDF文件时收到了该警告。但是,你能告诉我我能做些什么来使PDFBox解析带有阿拉伯文内容的文件吗? – Renju 2011-05-03 06:03:26

+0

恐怕我不能回答这个问题,因为我不熟悉PDFBox。一个快速的谷歌搜索确实给了一些结果,但看起来更新的版本(也许还是测试版)的PDFBox应该能够解析它。如果没有,请在PDFBox列表中提问,或者在此提出另一个问题。 – 2011-05-03 06:15:14