如何使用lucene的shingleanalyzerwrapper + standardanalyzer + indexreader？

我希望你能帮助我解决这个问题。我打算做的事情：给定一个正确的文本，我想要计算每个干扰标记ngrams的频率（没有停用词）（换句话说，停用词已被删除）。如何使用lucene的shingleanalyzerwrapper + standardanalyzer + indexreader？

情况是这样的：我索引一些文本使用ShingleAnalyzerWrapper + StandardAnalyzer和的IndexWriter当我添加一个文件的IndexWriter（是这样的：indexwriter.addDocument（DOC，分析仪）;其中，分析仪再次，ShingleAnalyzerWrapper + StandardAnalyzer ）。

但问题是：当我得到术语频率和术语时，停用词似乎被下划线代替。

这是输入：
String text =“我想要我想链接”;
String text2 =“super by by hard easy”;

如果什么还不清楚，请咨询我，所以我努力让自己更清楚

感谢您的帮助

来源

2011-05-11 ncode

请参阅http://www.lucidimagination.com/search/document/e5681676403a007b/can_i_omit_shinglefilter_s_filler_tokens了一些解决方案。

在这种情况下，您可能希望禁用停止过滤器上的位置增量，因为您不想在停用词所在的位置引入“孔”，您希望假装它们从不存在。

来源

2011-05-12 15:27:17

这正是我想要的，非常感谢你。 – ncode 2011-05-13 13:25:49

该链接提供了一个未找到的页面;这似乎是相同的讨论，虽然：http://www.gossamer-threads.com/lists/lucene/java-user/123704?do=post_view_threaded#123704 – junkdog 2013-03-25 12:25:20

如何使用lucene的shingleanalyzerwrapper + standardanalyzer + indexreader？

回答

相关问题