pandas

    1热度

    3回答

    基于下面的数据框(1),我希望创建一个数据框(2),其中y或z等于2.是否有方法可以方便地执行此操作? 如果我要创建一个仅包含dataframe(1)但不包含dataframe(2)的行的数据框(3),我该如何处理它? id x y z 0 324 1 2 1 213 1 1 2 529 2 1 3 347 3 2 4 109 2 2 ...

    1热度

    2回答

    我有以下的数据帧,并想: 组记录由month 总和QTY_SOLD和各UPC_ID(每月)独特的NET_AMT 附上其余的列以及产生的数据帧 我认为我可以做到这一点的方式是第1种:创建month列汇总D_DATES,然后通过UPC_ID汇总QTY_SOLD。 脚本: # Convert date to date time object df['D_DATE'] = pd.to_datetime(

    1热度

    2回答

    从Excel中读取到的大熊猫时,这样表示 t0001 Albania 0.03914382317658349 0 t0001 Algeria 0.298994 1 t0001 Austria 1.01137 2 t0001 Belgium 0.306369 我想实现的是插入的“时间”,“区域”一栏,“价值”,它应该如下所示: time region value 0 t0001 Alba

    1热度

    1回答

    我的目标:我希望删除具有特定列中的NaN的行。我会允许NaN存在于某些列,但不允许存在其他列。 英文例如:如果一行中'detail_age'的值是NaN,我想删除该行。 这里是我的数据的视图: import pandas as pd df = pd.read_csv('allDeaths.csv', index_col=0, nrows=3, engine='python') print(df

    1热度

    1回答

    我有一个包含多个列的数据框。 >>> df.take(1) [Row(A=u'{dt:dt=string, content=Prod}', B=u'{dt:dt=string, content=Staging}')] 我想从df列A和B的值中去掉花括号'{'和'}'。我知道我们可以使用: df.withColumn('A',regexp_replace('A','//{','')) df.

    1热度

    2回答

    第一篇文章,尽我所能描述我的问题。让我知道是否需要根据格式调整任何内容或澄清问题的任何方面。谢谢! 我有大熊猫电影评级的数据框,我需要为每部电影创建用户评分向量。我正在寻找更高效的方法(使用熊猫/ numpy操作或向量化),以便处理数据集中的26M行或用户电影评级对。 电影等级的数据帧看起来像这样: 输入: movieId userId rating 1 1 1.0 1 2 4.5

    1热度

    1回答

    我正在寻找最大量的!在数据帧和IM不是100%肯定,如果我有权利代码: finefoods_df['Review'].max().count("!")

    0热度

    1回答

    如果我有2个Series对象,像这样:[0,0,1] [1,0,0] 如何得到两个交点和联合? 它们只包含布尔值,这意味着它们是非唯一值。 我有一个大的布尔矩阵。我对它进行了细化,现在我试图找到误报和否定,我认为这意味着我必须让每个原始对的Jaccard相似。

    1热度

    1回答

    我有一个熊猫数据帧,看起来如下: name1 country1 name2 country2 A GER B USA C GER E GER D GER Y AUS E GER A USA 我想获得一个新的数据帧有两列name和country包含唯一对(name1, country1)和(name2,country2)。 预期的结果应该是这样的: nam

    1热度

    1回答

    我有一个数据帧DF = DF [[“A”,“B”,“C”] 3列和2000行 然后,我有另一组数据只有200行 我怎样才能将这个添加到df ['D'],使这200行将只显示为2000行的尾部? 所以,从0-1800一行DF [“d”]将为NaN,然后​​1801至2000年将是价值 一直在尝试各种方法都没有成功......谢谢 data with 200 rows in this format