2017-06-21 122 views
0

我对数据挖掘,我们从kaggle给CSV数据的一所学校项目的工作(这是怎样的数据看起来(2线出6970)):转换CSV到ARFF

4,1970,Female,150,DomesticPartnersKids,Bachelor's Degree,Democrat,,Yes,No,No,No,Yes,Public,No,Yes,No,Yes,No,No,Yes,Science,Study first,Yes,Yes,No,No,Receiving,No,No,Pragmatist,No,No,Cool headed,Standard hours,No,Happy,Yes,Yes,Yes,No,A.M.,No,End,Yes,No,Me,Yes,Yes,No,Yes,No,Mysterious,No,No,,,,,,,,,,Mac,Yes,Cautious,No,Umm...,No,Space,Yes,In-person,No,Yes,Yes,No,Yay people!,Yes,Yes,Yes,Yes,Yes,No,Yes,,,,,,,,,,,,,,,,,No,No,No,Only-child,Yes,No,No 
5,1997,Male,75,Single,High School Diploma,Republican,,Yes,Yes,No,,Yes,Private,No,No,No,Yes,No,No,Yes,Science,Study first,,Yes,No,Yes,Receiving,No,Yes,Pragmatist,No,Yes,Cool headed,Odd hours,No,Right,Yes,No,No,Yes,A.M.,Yes,Start,Yes,Yes,Circumstances,No,Yes,No,Yes,Yes,Mysterious,No,No,Tunes,Technology,Yes,Yes,Yes,Yes,No,Supportive,No,PC,No,Cautious,No,Umm...,No,Space,No,In-person,No,No,Yes,Yes,Grrr people,Yes,No,No,No,No,No,No,Yes,No,No,Yes,No,Own,Pessimist,Mom,No,No,No,No,Nope,Yes,No,No,No,Yes,No,Yes,No,Yes,No 

和我们必须得到.arff格式才能在weka中使用。我manualy输入的报头(107个属性)

@ATTRIBUTE user_id NUMERIC 
@ATTRIBUTE yob  NUMERIC 
@ATTRIBUTE gender {Male,Female} 
@ATTRIBUTE income {150,100,75,50,25,10} 
@ATTRIBUTE householdstatus {MarriedKids,Married,DomesticPartnersKids,DomesticPartners,Single,SingleKids} 
@ATTRIBUTE educationlevel {Bachelor's Degree,High School Diploma,Current K-12,Current Undergraduate,Master's Degree,Associate's Degree,Doctoral Degree} 
@ATTRIBUTE party {Democrat,Republican} 
@ATTRIBUTE Q124742 {Yes,No} 
@ATTRIBUTE Q124122 {Yes,No} 

,我得到这个错误:

}预计在统计结束阅读令牌EOL

然后我试图使用WEKA转换器,但它给我一个错误

values.Read 2数目错误,预期1,读令牌[EOL],第4行问题在线遇到:3

+0

什么Kaggle项目?如果我能得到数据文件,我会试试看。 – zbicyclist

+0

[链接](https://inclass.kaggle.com/c/can-we-predict-voting-outcomes)你的回应 – candy

回答

1

这是我做的: 从Kaggle,我下载了train.csv(5568实例,最高ID号码6960)。

我没有使用转换器 - 刚刚加载它到了Weka Explorer作为一个CSV文件。一些问题及其解决方案:

  1. 第3行:“学士学位”的第一个例子。它不喜欢那个单引号(“第3行,第7行,预计108”)。摆脱了所有单引号(在文本编辑器中使用全局替换)。然后我试着再次将它载入Weka。
  2. 的文件不具有CR最后一行,这导致错误的末尾(键盘上的回车键)(“上线5569为空”)。我又在文本编辑器中添加了一个。然后我将它加载到Weka中,并查看了变量。
  3. YOB(出生年份)丢失约300的情况下,用“NA”填写。因此,它没有评估为字符串或数字。将这些编辑为空单元格。然后我把它装入Weka。
  4. 而且,当然,移动为另一方的类变量(末尾)。我在Weka做过这个。
  5. 保存这个作为train.arff

  6. 早在加载它,它似乎工作确定。我使用OneR分类器生成了51%的准确度,但您不希望OneR分类器在此处运行良好。我相信你可以做得更好。

注意我没有做任何手动输入标题。这一定是需要一段时间的!

祝你好运!

+0

我还没有得到它的工作我试着用你的方式,我得到了一个错误。 https://drive.google.com/open?id=0B6ozOhSRitenRzZDNElMUVBSeFk(这是我到目前为止所做的链接,并且即时获得错误提前结束)。抱歉打扰你,但你能看看文件,并告诉我我哪里出了错。 – candy

+0

当我将arff文件的数据部分加载到Excel中时,除了几条记录外,它会出现在列DD中。第一个不是第118行 - 你得到的错误(当我重复它)在第119行。是否应该在该列中添加问号(以及后面的文件中的类似列)? – zbicyclist

+0

我设法从一开始就做到了这一切enyway非常感谢您的帮助,如果您看到这是我所做的https://drive.google.com/open?id=0B6ozOhSRitenZ3VxLWFFcG1IQ1U – candy