2016-11-16 149 views
0

我正在查找示例,显示如何绘制文本分类的决策边界。我知道sklearn文档中的一些示例,但是如何将它们应用于文本数据?为文本分类绘制决策边界

我甚至不确定,要绘制什么。可以为此绘制决策边界吗?

我正在考虑使用CountVectorizer的结果,然后把它变成一个np.array。

在线有没有好的例子?

+0

绘制非文本分类问题的决策边界确实没什么区别。在一天结束时,这些'sklearn'算法正在使用特征矩阵(无论是来自'CountVectorizer'还是普通的'numpy'数组)。然而,高维度的文本数据很可能使这种绘图变得困难,所以某种形式的SVD可能是必要的。 – blacksite

+0

但我用什么轴?单词的频率? – user3813234

+0

想一想[this](http://scikit-learn.org/stable/auto_examples/tree/plot_iris.html)的例子。这两个向量如何绘制在与分类问题相关的轴上?为了回答你的问题:在文本分类问题中,你会有许多*轴,因为你的特征矩阵非常庞大,所以这就是为什么SVD很重要。 – blacksite

回答

1

这里的难点在于文本分类是一个高维问题,其维度等于词汇的大小。在2d中绘制这个图形需要首先应用降维技术,例如pca或t-sne,然后在这个新的表示上训练学习算法。即使这样,我怀疑你的情节会有多么丰富。

你可以使用一个玩具的例子,只用2-3个字来形象化一行(2d)或一个表面(3d)分隔类,但它将是一个玩具的例子。

+0

感谢您的回复。是否还有其他类型的图表可以使文本分类的敏感性可视化分类器的工作方式?或者也许还有其他类型的地块? – user3813234

+0

您可以使用分类器决策边界来查找哪些是分类问题权重最大的单词。例如,在以文本分类为框架的情感分类问题(正面/负面)中,您会希望诸如“真棒/令人惊讶/可怕”之类的词具有高权重。 – geompalik

+0

一个无耻的插件:检查重量和可视化他们的例子中你可以使用[eli5](https://github.com/TeamHG-Memex/eli5)库。它在pre-alpha; docs(目前非常不完整)主分支:http://eli5.readthedocs.io/en/latest/overview.html#basic-usage –