2014-01-09 69 views
0

我试图做一个包含表使用熊猫和新语言,我超级困惑。我正在处理Facebook数据。创建一个包含表

这里的数据样本,我有:

以下是用户的集合与所有他们喜欢

id pageid1 pageid2 pageid3  
10 123   456  789 
11 478   166  356 ... 
12 984   456  789 
13 166   356  123 
       ... 

页的我也有最流行的喜欢列表pages so

pop_page1: 123 
pop_page2: 456 
pop_page3: 789 
    ... 

所以“pop_page1”是我的数据集中用户喜欢的最受欢迎的页面。

时,我都做过,我希望它看起来像这样

individual pop_page1  pop_page2 pop_page3  (etc) 
10    True   True   True 
12    False   True   True 
13    False   False   True 
(etc) 

基本上我想看看是否每一个用户喜欢的最热门的网页,我不知道该怎么做,在熊猫(或者本身在Python不会弄乱数据)

+1

什么是“夹杂物表”?你可以修改你的问题,包括你已经尝试过的复制/可移植版本吗?最后,你能解释'pop_pageN'与'pageidX'的关系吗? (很清楚,'id'映射到'individual',但我也会清除它)。 –

回答

1

你想用DataFrame.isin()

In [12]: df 
Out[12]: 
    pageid1 pageid2 pageid3 
id       
10  123  456  789 
11  478  166  356 
12  984  456  789 
13  166  356  123 

[4 rows x 3 columns] 

In [13]: pages 
Out[13]: [123, 456, 789] 

In [14]: df.isin(pages) 
Out[14]: 
    pageid1 pageid2 pageid3 
id       
10 True True True 
11 False False False 
12 False True True 
13 False False True 

[4 rows x 3 columns] 

在你的问题是不清楚的热门网页的存储方式。我只是将它列入清单,但如果它是dict,则可以使用.values()方法获取它们。

+0

哇,这正是我所需要的。我想我只是没有在文档中看到。 他们被存储在一个列表中。 非常感谢! – jbarney

相关问题