2017-06-14 75 views
0

我打算使用Scikit Learn的Multi Layer Perceptron Classifier来达到此目的。
输出是该单词的性别,该单词将以单热编码表示,如男性为[1,0,0],女性为[0,1,0],女性为[0,0,1]。 现在其中一个输入是单词的单词向量。这些向量中的每一个都有20个维度。 其他功能是它的语音标签和奇点(0)/多(1)状态的一部分。 我的问题是如何使用MLPClassifier中的一个数组作为一个数组的单词向量?如何使用word2vec返回的单词向量作为功能?

+0

你有两个女性班? –

回答

1

您的w2v矢量捕捉到与该单词相关的一些语义相似性。这个矢量必须被认为是一个整体 - 它本身就是一个特征。

神经网络的一个很好的属性是它们自己提取和学习模式的能力。作为输入,你可以考虑用POS标签的矢量化/数值相当于沿着串联词汇向量,最后的奇点状态:

------------------- ---- - 
\_________________/ \__/ |  } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces) 
    w2v vector  POS state 

只要你遵循的培训,测试一致的方案,并看不见的数据,您的MLP将使用整个输入在学习时自动从输入中提取特征。

+0

再次感谢!顺便说一下,GloVe软件包不支持印地语! – Djokester

+0

@Djokester哦!我很遗憾听到这个消息。 :(希望w2v对你有好处,祝你好运! –

相关问题