我正在使用stanford posttager工具包来标记学术论文中的单词列表。这是我这部分的代码:python stanford posttager,运行一段时间后java命令失败
st = StanfordPOSTagger(stanford_tagger_path, stanford_jar_path, encoding = 'utf8', java_options = '-mx2048m')
word_tuples = st.tag(document)
文件是从nltk.word_tokenize衍生单词的列表,他们来自例正常学术论文所以通常有字(3000大多 - 4000)的几千。我需要处理超过10000个文件,所以我一直在调用这些函数。我在一个小的测试精细程序字镶有270个文件,但是当文件的数量越大,程序给出了这个错误(Java堆空间2G):
raise OSError('Java command failed : ' + str(cmd))
OSError: Java command failed
注意,不会立即出现此错误执行后,它会在运行一段时间后发生。我真的不知道原因。这是因为我的3000 - 4000字太多了吗?非常感谢您的帮助!(对不起,坏版,错误信息过长)