我知道术语文档矩阵是一个数学矩阵,它描述文档集合中出现的术语的频率。在文档术语矩阵中,行对应于集合中的文档,列对应于术语。如何计算术语文档矩阵?
我正在使用sklearn的CountVectorizer从字符串(文本文件)中提取功能以简化我的任务。下面的代码根据sklearn_documentation
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
vectorizer = CountVectorizer(min_df=1)
print(vectorizer)
content = ["how to format my hard disk", "hard disk format problems"]
X = vectorizer.fit_transform(content) #X is Term-document matrix
print(X)
输出如下:
我没有得到如何矩阵已经calculated.please讨论的代码所示的例子返回一个术语文档矩阵。我已经阅读了Wikipedia的一个例子,但无法理解。
ThankYouSoMuch:D – zerobyzero
你会告诉我这段代码是如何工作的:'sp.linalg.norm(X_train.getrow(0).toarray())'其中sp是'导入scipy as sp',结果norm()的参数为[[1 1 1 0 1 0 0 0 0 1 1 1 1 1 0 1 0 0 1 1 1]]。 – zerobyzero