1
我正在尝试使用我的自定义分析器来创建文档矩阵以从文档中提取特征。下面是相同的代码:vectorizer.fit_transform给出NotImplementedError:不支持将非零标量添加到稀疏矩阵
vectorizer = CountVectorizer( \
ngram_range=(1,2),
)
analyzer=vectorizer.build_analyzer()
def customAnalyzer(text):
grams = analyzer(text)
tgrams = [gram for gram in grams if not re.match("^[0-9\s]+$",gram)]
return tgrams
调用此函数来创建自定义分析仪,用于由countVectorizer提取功能。
for i in xrange(0, num_rows):
clean_query.append(review_to_words(inp["keyword"][i] , units))
vectorizer = CountVectorizer(analyzer = customAnalyzer, \
tokenizer = None, \
ngram_range=(1,2), \
preprocessor = None, \
stop_words = None, \
max_features = n,
)
features = vectorizer.fit_transform(clean_query)
z = vectorizer.get_feature_names()
此调用引发以下错误:
(<type 'exceptions.NotImplementedError'>, 'python.py', 128,NotImplementedError('adding a nonzero scalar to a sparse matrix is not supported',))
当我们调用矢量化,以适应和改变这个错误出现。 但变量clean_query的值不是标量。我正在使用sklearn-0.17.1
np.isscalar(clean_query)
False
发布数据,以便我们可以复制错误。 –