2017-08-23 16 views
1

我不确定这是否是dask或Python的一个功能的缺陷。简单的例子:dask中的奇怪行为适用于lambda函数循环

data = pd.DataFrame({'tags': [['dog'], ['cat', 'red'], ['cat'], ['cat', 'red'], ['cat', 'red'], ['dog', 'red']]}) 
print data 

      tags 
0  [dog] 
1 [cat, red] 
2  [cat] 
3 [cat, red] 
4 [cat, red] 
5 [dog, red] 

我想每个标签

tags = ['cat', 'dog', 'red'] 

打造 “热列” 使用DASK:

data = dd.from_pandas(data, npartitions=4) 

for tag in tags: 
    data[tag] = data.tags.apply(lambda x: tag in x, meta=(tag, bool)) 

结果是错误的:

print data.compute() 
     tags cat dog red 
0  [dog] False False False 
1 [cat, red] True True True 
2  [cat] False False False 
3 [cat, red] True True True 
4 [cat, red] True True True 
5 [dog, red] True True True 

似乎是lambda始终与循环中的最后一个标记相关(red)。如果我手动展开循环,它可以正常工作。

使用普通熊猫我没有这个问题。

部分解决

def is_in(items, value): 
    return value in items 

for tag in tags: 
    data[tag] = data.tags.apply(is_in, value=tag, meta=(tag, bool)) 

我不很喜欢它,因为它迫使参数的顺序是相当不自然。顺便说一下,我不确定是否理解了原始问题。

回答

1

答案在这里:What do (lambda) function closures capture?它是关于蟒蛇的词汇范围。

更好的解决方案:拉姆达使用默认值

for tag in tags: 
    data[tag] = data.tags.apply(lambda x, t=tag: t in x, meta=(tag, bool))