我想找到最佳的方式来将具有类似ID的'行'分组。最快的方法,以一个非常大的numpy阵列的ID分组
我最好的猜测: np.array([test[test[:,0] == ID] for ID in List_IDs])
结果:阵列
的数组的数组[ array([['ID_1', 'col1','col2',...,'coln'],
['ID_1', 'col1','col2',...,'coln'],...,
['ID_1', 'col1','col2',...,'coln']],dtype='|S32')
array([['ID_2', 'col1','col2',...,'coln'],
['ID_2', 'col1','col2',...,'coln'],...,
['ID_2', 'col1','col2',...,'coln']],dtype='|S32')
....
array([['ID_k', 'col1','col2',...,'coln'],
['ID_k', 'col1','col2',...,'coln'],...,
['ID_K', 'col1','col2',...,'coln']],dtype='|S32')]
任何人都可以提出一些可以更有效率?
提醒:test
阵列是巨大的。 '行'没有订购
有你看着'pandas',这有专门为这个 – EdChum
“庞大”的是'groupby'方法一个相对术语。你可以再详细一点吗?一百万行?一亿? –
@WarrenWeckesser我现在正在与30万。更多预计的数据 – belas