2013-05-20 36 views
1

我使用WEKA工具进行数据分析聚类,但是在我的一些属性中,域内有很多值。具体而言,我需要表示一些关于蛋白质的信息,我需要包含的信息是与其功能相关的术语。如何处理某些属性中的多个值?

例如这些值是包括在相同的属性“功能”:

“RNA结合蛋白”,“ribosomerRNA的RNA bindingstructural组分结合”,“翻译”,“intracellularribosomeribonucleoprotein复合物”。

而且这些术语的多样性非常巨大。

有人可以帮助我吗?

回答

1

一种常用的方法是将分类变量与n不同类别拆分为n二元虚拟变量。

例如:

gender = {male, female}可以用2个虚拟变量被改写:

  1. male = [0, 1]
  2. female = [1, 0]

对你来说,这似乎是一个函数可以包含几个不同值(例如1个具有几个功能的蛋白质)。这很容易变成虚拟变量。

相关问题