2015-12-21 87 views
-1

我正在用nltk和stanford pos tagger解析包含大量单词的文件。我的一些文件执行得很好,但很少出现以下错误。如何在Python中使用nltk stanford pos tagger解析大数据

OSError: Java command failed : ['C:\\Program Files\\Java\\jdk1.8.0_60\\bin\\java.exe', '-mx1000m', '-cp', 

经过一番研究,我发现问题是在运行时程序存储空间较少。一种可能的解决方案是将一个文件分成两份,然后分别处理它们。但是,这不是我的计划的永久性长期解决方案。所以,现在我想增加进程内存。

我发现这篇文章通过over-commit分配内存。看来这个解决方案是针对linux的。我正在使用Windows 8,无法找到文件sysctl.conf。所以任何人都可以为我提供解决方案,如何在Windows环境中增加内存。

感谢

+0

问题不在于如何让更多的内存,它是你在做什么是耗尽了吗? – msw

+0

我只是用ntlk pos tagger来标记数据。它适用于其他文件。只有少数它不起作用。如果您即使在有关此错误的计算器上也会进行研究,您将看到问题与内存使用情况有关。我已经尝试将文件分成两部分,然后分别处理它,然后运行。那么还有什么问题呢? – user3050590

+0

这个问题,在@caot回答时,记忆太多。 – msw

回答

0

经过一番搜索,我增加了运行stanford POS tagger所需的java的最大内存。该命令是:

nltk.internals.config_java(options='-xmx2G') 

重新启动程序和它的工作

1

尝试坚持的输出数据的数据处理过程中文件,如果它是可能的。

相关问题