2017-08-15 50 views
2

组合我有医疗文本数据的数据集,我申请对他们的TF-IDF矢量化和计算TF IDF得分的话,就像这样:矢量器的话在Python

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer as tf 

vect = tf(min_df=60,stop_words='english') 

dtm = vect.fit_transform(df) 
l=vect.get_feature_names() 

x=pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names()) 

所以基本上我的问题在我应用TfidfVectorizer的同时,它将文本分割为不同的单词,例如:“痛苦”,“头痛”,“恶心”等等。我怎样才能得到TfidfVectorizer输出中的文字组合,例如:“严重疼痛”,“丛集性头痛”,“恶心呕吐”。由于

回答

4

使用ngram_range参数:

vect = tf(min_df=60, stop_words='english', ngram_range=(1,2)) 

或(取决于你的目标):

vect = tf(min_df=60, stop_words='english', ngram_range=(2,2))