1
我有一个字符串表示一篇文章,名为text
。我试图运行TFIDF并得到一个数据帧。生成的数据框应该将每个单词作为列名称。这里是我的尝试:此代码运行SKLearn:使用TfidfVectorizer时丢失列名称
corpus = [text]
tfidf_transformer = TfidfVectorizer(min_df=1, ngram_range=(1,1), use_idf=True)
tfidf_df = tfidf_transformer.fit_transform(corpus)
tfidf_df = pd.DataFrame(tfidf_df.toarray())
print 'tfidf_df: ', tfidf_df.head()
之后,我有一个数字我的列名,而不是较TFIDF的特征词。
我应该如何得到列中的每个词在text
字符串中遇到?
谢谢!