2014-10-02 88 views
1

我有训练数据(.arff),我想转换为测试数据。如何将训练数据转换为weka分类器的测试数据?

这是我的训练数据:

@relation fix_labeled_tweet 

@attribute Text string 
@attribute class-att {relevant,not_relevant,additional} 

@data 
'pvj dengan ciwalk masih tetap jadi tempat fav untuk belanja;',additional 
'deta di bandung trade centre btc fashion mall;',additional 
'promo hotel bandung ibis trans studio enjoy our special price akan your wonderful weekend periode s di 27 desember;',not_relevant 
'indri theressa di cihampelas walk ciwalk;',additional 
'beiga we di jatinangor town square jatos;',additional 
'nonton di paris van java my husband;',relevant 
'mainya seringnya ke paris van java mall miko mall mana;',not_relevant 
'double date yeahhhh di braga city walk;',relevant 
'sinta di jatinangor town square jatos;',additional 
'terimakasih tas dompet teguh di cihampelas walk ciwalk;',additional 
'malam minggu miko the movie di cinema 21 mall panakukang;',additional 
'karaokean sekalian dugem patriot handrian di inul vista paskal hypersquare;',relevant 
'makan di mujigae korean resto ciwalk;',relevant 
'just posted a photo bandung trade center;',additional 

什么,我已经试过是消除从数据标签(另外,相关的,not_relevant),然后我保存为不同的名字,但它不工作。 Weka说火车和测试仪不兼容。

回答

1

它们不兼容,因为训练集和测试集的结构不同。

如果你做了一份文件(比如说作为Testing.arff),然后提供它作为测试集,那么分类器会接受文件。但是,如果您从测试文件中删除使用过的属性,则文档不能使用,因为某些输入(用于分类)或输出(用于评估)缺失。

我已经能够在删除类输出时复制您的问题,但在复制文档时,测试集按预期正常工作。

希望这会有所帮助!

+1

如果他担心测试文件中的class属性可用,我建议用?替换数据中的实际标签。这表明.arff中缺少值,并且这些文件具有相同的结构。 http://www.cs.waikato.ac.nz/ml/weka/arff.html – Walter 2014-10-03 11:54:28

+0

感谢Walter,这是一个很好的观点。 – 2014-10-03 14:02:00

相关问题