0
我想拉进python的英文维基百科语料库(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)进行一些深入的学习。我正在使用gensim。我可以加速将xml bz2文件加载到内存中吗?
这是16GB,我坐在AWS的一台大型EC2机器上。我加载它
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我在一个jupyter笔记本运行这个,但它基本上挂着试图加载这个。我正在观看内存消耗和其加载非常缓慢。 (12小时以上,只有〜2 GB)。任何方式,我可以加快这一点?