如何在Python中使用nltk stanford pos tagger解析大数据

-1

我正在用nltk和stanford pos tagger解析包含大量单词的文件。我的一些文件执行得很好，但很少出现以下错误。如何在Python中使用nltk stanford pos tagger解析大数据

OSError: Java command failed : ['C:\\Program Files\\Java\\jdk1.8.0_60\\bin\\java.exe', '-mx1000m', '-cp',

经过一番研究，我发现问题是在运行时程序存储空间较少。一种可能的解决方案是将一个文件分成两份，然后分别处理它们。但是，这不是我的计划的永久性长期解决方案。所以，现在我想增加进程内存。

我发现这篇文章通过over-commit分配内存。看来这个解决方案是针对linux的。我正在使用Windows 8，无法找到文件sysctl.conf。所以任何人都可以为我提供解决方案，如何在Windows环境中增加内存。

感谢

问题不在于如何让更多的内存，它是你在做什么是耗尽了吗？ – msw

我只是用ntlk pos tagger来标记数据。它适用于其他文件。只有少数它不起作用。如果您即使在有关此错误的计算器上也会进行研究，您将看到问题与内存使用情况有关。我已经尝试将文件分成两部分，然后分别处理它，然后运行。那么还有什么问题呢？ – user3050590

这个问题，在@caot回答时，记忆太多。 – msw

经过一番搜索，我增加了运行stanford POS tagger所需的java的最大内存。该命令是：

nltk.internals.config_java(options='-xmx2G')

重新启动程序和它的工作

2016-01-14 16:09:12 user3050590

尝试坚持的输出数据的数据处理过程中文件，如果它是可能的。

2015-12-21 16:21:22 caot

回答