2011-03-02 59 views
6

我一直在使用木槌推断包含100,000行(大约34 MB木槌格式)的文本文件的主题。但是现在我需要在包含一百万行(大约180MB)的文件上运行它,并且得到一个java.lang.outofmemory异常。有没有办法将文件分割成更小的文件,并为所有文件中的数据组合起来构建模型? 由于事先木槌主题建模

回答

1

我不知道马利特的可扩展性,大数据,但项目http://dragon.ischool.drexel.edu/可以存储在磁盘备份持续它的数据,因此可以扩展到无限的语料规模(当然是低性能)

+1

它看起来像龙Toolkit是死的,但。自2007年以来没有任何活动。此外,尚不清楚它使用的是什么许可证(商业发展是否允许?) – chaostheory 2011-05-18 14:00:38

1

即使从多个文件中读取模型,该模型仍然会非常庞大​​。你有没有尝试增加你的Java虚拟机的堆大小?

0

鉴于当前PC的内存大小,应该很容易使用大到2GB的堆。 在考虑使用群集之前,您应该尝试单机解决方案。

1

java.lang.outofmemory异常发生的主要原因是堆空间不足。 您可以使用-Xms和-Xmx来设置堆空间,以便它不会再次出现。

6

斌此行/ mallet.bat增加值:

set MALLET_MEMORY=1G