2017-06-12 52 views
0

我想拉进python的英文维基百科语料库(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)进行一些深入的学习。我正在使用gensim。我可以加速将xml bz2文件加载到内存中吗?

这是16GB,我坐在AWS的一台大型EC2机器上。我加载它

from gensim.corpora.wikicorpus import WikiCorpus 
from gensim.models.doc2vec import Doc2Vec, TaggedDocument 
from pprint import pprint 
import multiprocessing 

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2") 

我在一个jupyter笔记本运行这个,但它基本上挂着试图加载这个。我正在观看内存消耗和其加载非常缓慢。 (12小时以上,只有〜2 GB)。任何方式,我可以加快这一点?

回答

1

在过去,我已经在不同的服务器上处理完全相同的文件,它从来没有造成过任何可观的延迟,唯一的区别是我从未使用过jupyter笔记本电脑。所以我会敢于责怪笔记本。也许使用命令外壳(或IPython)来尝试它。

相关问题