2012-06-21 50 views
3

我是新来的Weka,我试图建立一个分类脑电图数据进行分类。 EEG属性数据是5分钟记录的原始信号以及其他属性。我怎样才能以WEKA arff文件格式指定我的实例有一个5分钟原始信号的向量输入?WEKA - 矢量属性在ARFF格式

例如:

Num. -- raw -- class 
1 -- [1,2,3,4,5,6] -- Relaxed 
2 -- [2,3,4,5,6] --- Bored 

raw是一个属性向量..

回答

4

想想你problem-你有什么分类/预测,以及如何能得到最好的代表。机会是你不想预测下一个原始的脑电图读数,所以时间序列的方法可能并不重要。

Weka中只能与一个固定的属性集处理实例(数据行)(功能,值,或者换句话说,在预定长度的矢量)。可能的类型的属性中的一个可以具有是nominal(例如,“红色”,“绿色”,“蓝”),numeric(任意整数/浮点值),string(大多为文本挖掘)。和date。无法将raw signal的矢量表示为单个属性。下面是文档:http://weka.wikispaces.com/ARFF+%28stable+version%29

这就是说,你的情况可能是这样的:

num,class1,reading_1,reading_2,reading_3 ... reading_n,relaxed,bored 

其中reading_1是第一个原始读数和reading_n是在5分钟结束的最后一个。这将要求WEKA根据原始阅读材料预测你的课程,并且可能不会很有效(因为阅读材料可能不会彼此对齐,并且因为它分开处理每个阅读材料,而不关心频率等事情或平均值是相对的)。

或者,你可以做原始数据的一些预处理,使其在WEKA大多数机器学习算法是有用的。在这种情况下,您需要决定重要功能,然后创建它们。粗例子是:

num,class1,average,frequency,max_magnitude,standard_deviation,relaxed,bored 

如果你已经把它变成一个ARFF文件之前计算的东西比如平均和频率数据。然后,这些算法具有更多信息的数据集的图片,在其上预测其基础。

不过,还是另一个问题是你有什么表示?整个5分钟样本是否属于同一个班级,或者用户relaxed是其中的一部分,bored是部分吗?如果是这种情况,你应该有两个样本:一个用于无聊时,一个用于放松时。

+0

这可能是相关的问题:http://www.cs.dartmouth.edu/~campbell/cs65/lecture22/lecture22.html – Mauker