2014-09-05 43 views
0

我正在使用Weka创建使用类别的术语文档矩阵StringToWordVector。但是,无论输入语料库的大小如何,在输出语料时,只能看到500个术语/“num属性”,而当使用R tm程序包时,同一个语料库正在生成549个术语。如何更改Weka中的最大属性?

我试着更改wordsToKeep设置,但这不会影响生成的术语总数。对我来说,似乎有一些默认设置需要更改以增加生成的条款。但是,我没有找到这样的配置。

我正在使用Weka 3.6.11和NGramTokenizer。

如何让Weka生成更多条款?

回答

0

我升级到Weka 3.7.11,并尝试这个,它的工作。

StringToWordVector filter = new StringToWordVector(); 
filter.setWordsToKeep(Integer.MAX_VALUE);