0
我有一个Lucene索引,我想遍历(一次性评估在当前的发展阶段) 我有4个文件,每个几十万达万个条目,这是我想迭代计算每个条目的词数(〜2-10)并计算频率分布。Lucene的:遍历所有条目
我在做什么,此刻是这样的:
for (int i = 0; i < reader.maxDoc(); i++) {
if (reader.isDeleted(i))
continue;
Document doc = reader.document(i);
Field text = doc.getField("myDocName#1");
String content = text.stringValue();
int wordLen = countNumberOfWords(content);
//store
}
到目前为止,它是迭代的东西。调试确认其至少按照存储在文档中的条款进行操作,但出于某种原因它只处理存储条款的一小部分。我不知道我做错了什么?我只是想遍历所有文档和存储在其中的所有内容?