0
我使用以下代码在〜20,000,000个文档上生成了tf-idf模型,该模型效果很好。问题是,当我尝试使用计算时的相似性指标linear_kernel内存使用情况炸毁:计算Tfidf矩阵和预测向量之间的相似性会导致内存溢出
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
train_file = "docs.txt"
train_docs = DocReader(train_file) #DocReader is a generator for individual documents
vectorizer = TfidfVectorizer(stop_words='english',max_df=0.2,min_df=5)
X = vectorizer.fit_transform(train_docs)
#predicting a new vector, this works well when I check the predictions
indoc = "This is an example of a new doc to be predicted"
invec = vectorizer.transform([indoc])
#This is where the memory blows up
similarities = linear_kernel(invec, X).flatten()
好像这不应该占用多少内存,做一个1行-CSR的到20密尔的比较-row-CSR应输出一个1x20mil的ndarray。 Justy FYI:X是一个CSR矩阵〜12 GB的内存(我的电脑只有16个)。我试图寻找gensim来取代这一点,但我找不到一个很好的例子。
关于我失踪的任何想法?
感谢布拉德,这工作得很好,我的目的!仍然不知道为什么我得到一个内存溢出,可能与我对稀疏矩阵乘法的不理解有关。 – jowparks