总结了data.frame中的样本的唯一计数我有一个制表符分隔的表,它看起来像这样(它的巨大,“源”列中的条目一直延伸到1000万行):使用R
source Bin1 Bin2 Bin3 Bin4 Bin5
A 1 1 2 2 3
B 1 1 1 1 1
C 0 0 0 1 0
D 0 0 2 0 0
E 4 0 0 1 0
F 1 0 1 2 1
G 0 5 0 0 0
我想用R(或perl)从这张表中得到两件东西:
(1)共享条目的总和等于或大于1;
(2)基于相对于所有其他箱的“源”列的每个列“Bin1-5”的唯一条目
在这种情况下,基于“源”的共享条目的总数为2(不考虑一箱是否有一个以上的条目)
每“宾”的条目对所有其他的独特的计数垃圾桶应
Bin1 Bin2 Bin3 Bin4 Bin5
0 5 2 1 0
我真的很难理解你想要计算什么。你会介意在这个例子中进一步解释共享条目的总和应该是多少?为什么它是'2'?与“每个垃圾桶条目的唯一数量”一样,究竟应该计算什么? – LAP
狮子座,我想要得到的是每个行中的元素(基于第1列=“源”),这是所有分支共有的元素。在这里,元素/值是1到n(非零)并不重要;例如A和B都存在于所有的箱子中,因此它们被算作2个元素。其次,我想得到唯一元素的值相对于所有其他元素的唯一元素的总和(即,列Bin1与Bin2与Bin3与Bin4与Bin5 ...) – Daudi