2016-07-27 61 views
1

libsvm中是否存在可以自动编码字符串/分类特征的类。我找到了一个名为libsvmstringoutcomedatawriter的东西。上面使用哪种类型的编码?一个热门的编码?在libsvm中编码分类变量

+0

Cleartk libsvm有ibsvmstringoutcomedatawriter类。 –

回答

0

您的功能应如何针对LibSVM进行编码取决于您在SVM中使用的内核。例如,字符串内核允许您直接使用字符串作为SVM的功能。 LibSVM FAQ讨论了可以与LibSVM一起使用的字符串内核的实现。我也发现了一个string kernel implementation in Python,虽然没有测试过它。

关于分类特征,那些特征可以与LibSVM中可用的标准内核一起使用。编码分类特征的典型方法是将它们转换为二元特征,其中每个分类值表示为特定特征的值1。例如,对于特征color={red, green, blue},我们可以具有3个特征red={0,1},green={0,1},blue={0,1}。然后,诸如高斯/ RBF的内核应该能够处理数据而没有问题。

+0

但是,我必须手动执行此编码吗?我正在尝试对POS标签的功能进行编码。他们的任何细节? –