pandas

1热度

3回答

基于下面的数据框（1），我希望创建一个数据框（2），其中y或z等于2.是否有方法可以方便地执行此操作？如果我要创建一个仅包含dataframe（1）但不包含dataframe（2）的行的数据框（3），我该如何处理它？ id x y z 0 324 1 2 1 213 1 1 2 529 2 1 3 347 3 2 4 109 2 2 ...

1热度

2回答

熊猫集团 - 包括所有列

我有以下的数据帧，并想：组记录由month 总和QTY_SOLD和各UPC_ID（每月）独特的NET_AMT 附上其余的列以及产生的数据帧我认为我可以做到这一点的方式是第1种：创建month列汇总D_DATES，然后通过UPC_ID汇总QTY_SOLD。脚本： # Convert date to date time object df['D_DATE'] = pd.to_datetime(

1热度

2回答

大熊猫用于插入的列索引

从Excel中读取到的大熊猫时，这样表示 t0001 Albania 0.03914382317658349 0 t0001 Algeria 0.298994 1 t0001 Austria 1.01137 2 t0001 Belgium 0.306369 我想实现的是插入的“时间”，“区域”一栏，“价值”，它应该如下所示： time region value 0 t0001 Alba

1热度

1回答

Python - 熊猫 - 在dropna调用特定子集期间出现的关键错误

我的目标：我希望删除具有特定列中的NaN的行。我会允许NaN存在于某些列，但不允许存在其他列。英文例如：如果一行中'detail_age'的值是NaN，我想删除该行。这里是我的数据的视图： import pandas as pd df = pd.read_csv('allDeaths.csv', index_col=0, nrows=3, engine='python') print(df

1热度

1回答

如何从火花数据帧的所有列中替换多个字符？

我有一个包含多个列的数据框。 >>> df.take(1) [Row(A=u'{dt:dt=string, content=Prod}', B=u'{dt:dt=string, content=Staging}')] 我想从df列A和B的值中去掉花括号'{'和'}'。我知道我们可以使用： df.withColumn('A',regexp_replace('A','//{','')) df.

1热度

2回答

Pandas GroupBy列值，并根据每组中的值创建固定大小的列表

第一篇文章，尽我所能描述我的问题。让我知道是否需要根据格式调整任何内容或澄清问题的任何方面。谢谢！我有大熊猫电影评级的数据框，我需要为每部电影创建用户评分向量。我正在寻找更高效的方法（使用熊猫/ numpy操作或向量化），以便处理数据集中的26M行或用户电影评级对。电影等级的数据帧看起来像这样：输入： movieId userId rating 1 1 1.0 1 2 4.5

1热度

1回答

计算大熊猫数据帧中字符的最大出现次数

我正在寻找最大量的！在数据帧和IM不是100％肯定，如果我有权利代码： finefoods_df['Review'].max().count("!")

0热度

1回答

如何获得非唯一值的熊猫两个系列的交集和联合？

如果我有2个Series对象，像这样：[0,0,1] [1,0,0] 如何得到两个交点和联合？它们只包含布尔值，这意味着它们是非唯一值。我有一个大的布尔矩阵。我对它进行了细化，现在我试图找到误报和否定，我认为这意味着我必须让每个原始对的Jaccard相似。

1热度

1回答

得到一个大熊猫数据帧的列的唯一对

我有一个熊猫数据帧，看起来如下： name1 country1 name2 country2 A GER B USA C GER E GER D GER Y AUS E GER A USA 我想获得一个新的数据帧有两列name和country包含唯一对(name1, country1)和(name2,country2)。预期的结果应该是这样的： nam

1热度

1回答

级联数据帧具有不同数目的行的

我有一个数据帧DF = DF [[“A”，“B”，“C”] 3列和2000行然后，我有另一组数据只有200行我怎样才能将这个添加到df ['D']，使这200行将只显示为2000行的尾部？所以，从0-1800一行DF [“d”]将为NaN，然后1801至2000年将是价值一直在尝试各种方法都没有成功......谢谢 data with 200 rows in this format