2014-03-19 15 views
-2

我有一个数据集作为文本文件和数据格式如下,转换数据与每行中重复属性ARFF

ID:1

名称:a

ID:2

名称:b

ID:3

名:C

我想这个数据格式转换为在ARFF格式如下

ID名称

2 B

3c的

哪些工具应该我使用?这是一个很大的1GB大数据集。我从snap.stadford.edu获得了这个数据集来练习大数据处理。

回答

0

如何使用您选择的编程语言

输入格式是文本,输出格式(arff)也是有效的文本。

你为什么不写一个程序来转换格式?

0

您可以使用简单的命令行工具获得所需的结果。如果你在叫x.txt一个文件,使用数据:

grep ID: x.txt | sed 's/^[^ ]\+ //' > a.txt 
grep Name: x.txt | sed 's/^[^ ]\+ //' > b.txt 

获得名为A.TXT和b.txt两个不同的文件中的数据。

文件将有:

$ cat a.txt 
1 
2 
3 
$ cat b.txt 
a 
b 
c 

然后加入文件与粘贴命令:

$ paste a.txt b.txt 
1 a 
2 b 
3 c 

此解决方案,如果非常有效的,如果这些文件是相当大的,如你所说。