0
我正在使用Weka创建使用类别的术语文档矩阵StringToWordVector。但是,无论输入语料库的大小如何,在输出语料时,只能看到500个术语/“num属性”,而当使用R tm程序包时,同一个语料库正在生成549个术语。如何更改Weka中的最大属性?
我试着更改wordsToKeep设置,但这不会影响生成的术语总数。对我来说,似乎有一些默认设置需要更改以增加生成的条款。但是,我没有找到这样的配置。
我正在使用Weka 3.6.11和NGramTokenizer。
如何让Weka生成更多条款?