0
我有数据帧,看起来像这样:采摘使用GROUPBY熊猫随机元素
revisionId itemId wikidataType
1 307190482 23 Q5
6 305019084 80 Q5
8 303692414 181 Q5
9 306600439 192 Q5
11 294597048 206 Q5
在完全数据帧,则不存在中柱wikidataType 100个这样不同的值。它是一个很大的数据框,所以我想将它限制为每个wikidataType 1000条记录。因此,我用了以下东西:
df = df[df.groupby('wikidataType')['wikidataType'].cumcount() < 1000]
这给出了每个wikidataType的前1000条记录。我想随机选择这1000条记录。所以,我尝试使用
df = df[random.sample(list(df.groupby('wikidataType')['wikidataType']), 1000)]
但给了一个错误:
TypeError: 'Series' objects are mutable, thus they cannot be hashed
我甚至尝试
df = df[df.groupby('wikidataType')['wikidataType'].cumcount().random() < 1000]
但也没有工作。任何人都知道我该怎么做?
在此先感谢。
我需要1000条记录中随机。不是第一个1000. –
@NilakshiNaphade是的,我在添加。请参阅编辑。 –
我可能会需要最后一小部分的东西。但我想要1000分或全部如果大小小于1000. –