矢量器的话在Python

组合我有医疗文本数据的数据集，我申请对他们的TF-IDF矢量化和计算TF IDF得分的话，就像这样：矢量器的话在Python

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer as tf 

vect = tf(min_df=60,stop_words='english') 

dtm = vect.fit_transform(df) 
l=vect.get_feature_names() 

x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names())

所以基本上我的问题在我应用TfidfVectorizer的同时，它将文本分割为不同的单词，例如：“痛苦”，“头痛”，“恶心”等等。我怎样才能得到TfidfVectorizer输出中的文字组合，例如：“严重疼痛”，“丛集性头痛”，“恶心呕吐”。由于

来源

2017-08-15 HalfPintBoy

使用ngram_range参数：

vect = tf(min_df=60, stop_words='english', ngram_range=(1,2))

或（取决于你的目标）：

vect = tf(min_df=60, stop_words='english', ngram_range=(2,2))

来源

2017-08-15 10:02:39 MaxU

矢量器的话在Python

回答

相关问题