1
我有一个问题派生关系构建的边缘名单,我有几百万行的文件安排像这样:从两个柱状文件的第二列从第一列
1 Protein_A
1 Protein_B
2 Protein_A
3 Protein_C
4 Protein_A
4 Protein_B
4 Protein_C
4 Protein_D
5 Protein_C
5 Protein_D
凡列1表示相互作用途径,第2栏表示蛋白质的ID。任何人都可以推荐我可以排序成只(非互惠)每个网络如相互作用的边缘列表这样的一个有效的方法:
1 Protein_A,Protein_B
4 Protein_A,Protein_B
4 Protein_A,Protein_C
4 Protein_A,Protein_D
4 Protein_B,Protein_C
5 Protein_C,Protein_D
5 Protein_C,Protein_D
或者给我到哪里找这样的数据的指示?
我尝试了外壳脚本,它通过文件慢慢迭代并删除新线在导致以下的文件的末尾:然而
1 Protein_A 1 Protein_B
这可以被加工成一个边,这如果网络中有超过2种蛋白质,则不起作用。我正在画空白。任何人都可以帮忙吗?
预先感谢您。