我有一个数据集作为文本文件和数据格式如下,转换数据与每行中重复属性ARFF
ID:1
名称:a
ID:2
名称:b
ID:3
名:C
我想这个数据格式转换为在ARFF格式如下
ID名称
2 B
3c的
哪些工具应该我使用?这是一个很大的1GB大数据集。我从snap.stadford.edu获得了这个数据集来练习大数据处理。
我有一个数据集作为文本文件和数据格式如下,转换数据与每行中重复属性ARFF
ID:1
名称:a
ID:2
名称:b
ID:3
名:C
我想这个数据格式转换为在ARFF格式如下
ID名称
2 B
3c的
哪些工具应该我使用?这是一个很大的1GB大数据集。我从snap.stadford.edu获得了这个数据集来练习大数据处理。
如何使用您选择的编程语言?
输入格式是文本,输出格式(arff)也是有效的文本。
你为什么不写一个程序来转换格式?
您可以使用简单的命令行工具获得所需的结果。如果你在叫x.txt
一个文件,使用数据:
grep ID: x.txt | sed 's/^[^ ]\+ //' > a.txt
grep Name: x.txt | sed 's/^[^ ]\+ //' > b.txt
获得名为A.TXT和b.txt两个不同的文件中的数据。
文件将有:
$ cat a.txt
1
2
3
$ cat b.txt
a
b
c
然后加入文件与粘贴命令:
$ paste a.txt b.txt
1 a
2 b
3 c
此解决方案,如果非常有效的,如果这些文件是相当大的,如你所说。