2014-01-27 28 views
0

我有一个arff文件,其中包含700 entries,每个42000+ features用于NLP相关项目。现在格式是密集格式,但如果使用稀疏表示法,则条目可以大大减少。 我在core 2 duo machine with 2 GB RAM上运行,并且我得到了memory out of range eception,尽管将限制增加到了1536 MB。weka在一个大的arff数据集文件上运行

如果我将arff文件转换为稀疏表示,还是需要在更强大的机器上运行我的代码,它会有什么优势吗?

回答

1

根据算法的内部数据结构以及数据如何处理(增量式或全部内存),它将需要更多的内存。所以你需要的内存取决于算法。

所以稀疏表示对你来说更容易,因为它很紧凑,但是,正如我所知,该算法将需要相同数量的内存来创建来自同一数据集的模型。输入格式应该对算法透明。