2016-12-06 53 views
-4

假设我有不同的关键字标记为不同的内容。 如多标签分类到不同的文本

label          content 
    great, amazing       our company is bla bla 
               bla bla bla...... 

    amazing, horrible,interesting    our company is bla bla 
               bla bla bla...... 

    boring         our company is bla bla 
               bla bla bla...... 

然后,我想利用分类机器学习模型建立一个模型。

任何人都可以教我如何使这种多标签分类工作和构建?

p.s.我更喜欢使用scikit-learn库

+0

查看这里的例子http://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format – mkaran

回答

0

是的,我在发布此问题之前已阅读此内容。但是,它似乎总是过度配合。这是因为sklearn提供的例子只是用于一些简单的文本,比如一个句子。然而,现在我所讲的文字是谈论大量的工作,而不仅仅是一句话。

其实,我已经读过kaggle的例子。 (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)它接近我想要的,但是当我试图将它变成多标签分类时,它似乎很容易陷入过度拟合。

有人会和我分享他对文本挖掘问题的想法吗?