创建一个包含表

我试图做一个包含表使用熊猫和新语言，我超级困惑。我正在处理Facebook数据。创建一个包含表

这里的数据样本，我有：

以下是用户的集合与所有他们喜欢

id pageid1 pageid2 pageid3  
10 123   456  789 
11 478   166  356 ... 
12 984   456  789 
13 166   356  123 
       ...

页的我也有最流行的喜欢列表pages so

pop_page1: 123 
pop_page2: 456 
pop_page3: 789 
    ...

所以“pop_page1”是我的数据集中用户喜欢的最受欢迎的页面。

时，我都做过，我希望它看起来像这样

individual pop_page1  pop_page2 pop_page3  (etc) 
10    True   True   True 
12    False   True   True 
13    False   False   True 
(etc)

基本上我想看看是否每一个用户喜欢的最热门的网页，我不知道该怎么做，在熊猫（或者本身在Python不会弄乱数据）

来源

2014-01-09 jbarney

什么是“夹杂物表”？你可以修改你的问题，包括你已经尝试过的复制/可移植版本吗？最后，你能解释'pop_pageN'与'pageidX'的关系吗？（很清楚，'id'映射到'individual'，但我也会清除它）。 –

你想用DataFrame.isin()：

In [12]: df 
Out[12]: 
    pageid1 pageid2 pageid3 
id       
10  123  456  789 
11  478  166  356 
12  984  456  789 
13  166  356  123 

[4 rows x 3 columns] 

In [13]: pages 
Out[13]: [123, 456, 789] 

In [14]: df.isin(pages) 
Out[14]: 
    pageid1 pageid2 pageid3 
id       
10 True True True 
11 False False False 
12 False True True 
13 False False True 

[4 rows x 3 columns]

在你的问题是不清楚的热门网页的存储方式。我只是将它列入清单，但如果它是dict，则可以使用.values()方法获取它们。

来源

2014-01-09 18:09:43 TomAugspurger

哇，这正是我所需要的。我想我只是没有在文档中看到。他们被存储在一个列表中。非常感谢！ – jbarney

创建一个包含表

回答

相关问题