2012-03-23 57 views
0

我想在lucene索引中添加pdf文件(可能是我做的)。现在我想通过lucene邻近搜索查询来提取特定的文本。我如何从Lucene索引中提取特定文本?

接近搜索查询仅返回文件名。

But i want to extract all texts within the proximity query range.

事例: 检验.pdf: - > “示例文本一XXXXX B. Lucene是伟大的所有时间”

邻近查询是:AB〜5

我想摘录:xxxxx

我该怎么办......?

预先感谢UR帮助和提示...........

问候,

塞特希SARAVANAN

回答

0

请加上索引,同时文件

  doc.add(new Field("contents", result, Field.Store.COMPRESS, 
         Field.Index.ANALYZED, 
         Field.TermVector.WITH_POSITIONS_OFFSETS)); 

这里的doc是org.apache.lucene.document.Document类型的。

在搜索文件时,请使用com.java.search.HighlighterUtil.getFragmentsWithHighlightedTerms(分析器分析器,查询查询,字符串fieldName,字符串fieldContents,int fragmentNumber,int fragmentSize)作为片段。

+0

谢谢你的回复..我会尝试 – 2012-03-26 11:27:36