2011-05-10 81 views
0

出于某种原因,我无法从我的有效索引3552项目中找到任何结果。无法从PhraseQuery或WildcardQuery的有效索引中找到任何结果?

请看下面的代码,当我运行它时,后面跟着程序的控制台输出。 是索引文件的数量。 /c:/test/stuff.txt是作为测试从文档5中检索的正确的索引路径。底部的所有文本都是测试文件的全文(在XML类型输出中)。我错过了什么,我的简单查询不会产生结果?

也许我的WildcardQuery语法不好?我认为这将是低效的(由于在开始和结束的通配符),但它至少会返回从该指数文件...

import java.io.File; 
import java.io.IOException; 

import org.apache.lucene.document.Document; 
import org.apache.lucene.document.Fieldable; 
import org.apache.lucene.index.CorruptIndexException; 
import org.apache.lucene.index.IndexReader; 
import org.apache.lucene.index.Term; 
import org.apache.lucene.search.IndexSearcher; 
import org.apache.lucene.search.ScoreDoc; 
import org.apache.lucene.search.TopDocs; 
import org.apache.lucene.search.WildcardQuery; 
import org.apache.lucene.store.FSDirectory; 


public class Searcher 
{ 

    /** 
    * @param args 
    * @throws IOException 
    * @throws CorruptIndexException 
    */ 
    public static void main(String[] args) throws CorruptIndexException, IOException 
    { 

     System.out.println("Begin searching test..."); 

     IndexSearcher searcher = new IndexSearcher(FSDirectory.open(new File(args[0]))); 

     // termContainsWildcard is shown to be true here when debugging 
     // numberOfTerms is 0 
     WildcardQuery query = new WildcardQuery(new Term("contents", "*stuff*")); 

     System.out.println("Query field is: " + query.getTerm().field()); 
     System.out.println("Query field contents is: " + query.getTerm().text()); 

     TopDocs results = searcher.search(query, 5000); 

     // no results returned :(
     System.out.println("Total results from index " + args[0] + ": " + results.totalHits); 

     for (ScoreDoc sd : results.scoreDocs) 
     { 
      System.out.println("Document matched. Number: " + sd.doc); 
     } 

     System.out.println(); 

     System.out.println("Begin reading test..."); 

     // now read from the index to see if I am crazy 
     IndexReader reader = IndexReader.open(FSDirectory.open(new File(args[0]))); 

     // correctly shows the number of documents in the local index 
     System.out.println("Number of indexed documents: " + reader.numDocs()); 

     // pick out a random, small document and check its fields 
     Document d = reader.document(5); 

     for (Fieldable f : d.getFields()) 
     { 
      System.out.println("Field name is: " + f.name()); 
      System.out.println(new String(f.getBinaryValue())); 
     } 
    } 
} 

控制台输出运行时

开始搜索测试...
查询字段是:内容
查询字段内容为:*stuff*
从指数C总的结果:\索引2:0

开始阅读测试...
索引的文件数量:3552
字段名称是:路径
/c:/test/stuff.txt
字段名称是:内容
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="Content-Length" content="8"/>
<meta name="Content-Encoding" content="UTF-8"/>
<meta name="Content-Type" content="text/plain"/>
<meta name="resourceName" content="stuff.txt"/>
<title/>
</head>
<body>
<p>stuff &#13;
</p>
</body>
</html>

回答

1

您可以尝试使用卢克运行查询&试验一些不同的查询。您也可以使用Luke浏览索引条款,这可能会让您知道发生了什么。您用于索引文档的代码也可能会提供一些提示:例如,您的字段是否已编入索引?您从内容中获取二进制值,这可能意味着它从未被标记并因此编入索引。

+0

由于您的Luke建议,我能够弄清楚这一点!您是正确的 - 没有实际标记化的二进制字段。对于一个新手来说很令人困惑。 – asteroid 2011-05-26 18:59:56

0

默认情况下,前缀通配符查询(通配符查询一个前导*)在Lucene的禁用。有关更多信息,请参阅Lucene FAQ。如果要启用前缀通配符查询,请尝试:

QueryParser.setAllowLeadingWildcard(true) 
+0

感谢您的回答......这是为版本2 lucene?我正在运行3.1。0,并没有看到这是一个静态方法=( – asteroid 2011-05-12 16:49:41

+0

什么是值得 - 删除第二个通配符(以便WildcardQuery查询=新WildcardQuery(新术语(“内容”,“*东西”))是什么显示在调试过程中仍然显示termContainsWildcard等于true,这表明它至少可以识别通配符 – asteroid 2011-05-12 16:55:43

相关问题