2013-11-02 40 views
0

我想使用的关联算法(先验),但我的记录具有任意的标签,即如何表示Weka的标签列表?

...other stuff...,"tag1,tag2,tag4" 
    ...other stuff...,"tag1,tag2,tag5" 
    ...other stuff...,"tag1,tag3,tag5" 

即以逗号分隔的标签列表在每个记录为带引号的文本字段的端塞。

当它通过Pentaho Kettle中的ARFF插件运行时,此列的输出是'Nominal',每个标签组合都是离散值。

正确的做法是将每个标签都视为一个布尔值,因此它可以具有独立于其他标签的独立值。

完成此操作的最简单方法是什么?

回答

0

Weka提供的过滤器称为“NominalToBinary”。它的目的显然是将标称属性变成二进制。 您可以阅读更多关于此过滤器here

它的一些相关的选项有:

  1. 选择到过滤器将被应用的属性。

  2. 选择是否将新的二进制属性视为名义或数字。