pandas

-1热度

1回答

我想了解以下内容： 1）如何计算百分位数。 2）为什么python不能以排序顺序（这是我的预期）将值返回给我012 2 3 4 4 6 6 1 4 5 5 5 5 6 9 9 9 9 3 3）我的要求是知道实际值低于x％的人口所在。怎么做？由于 Python的2 new=pd.DataFrame({'a':range(10),'b':[60510,60053,54968,62269,91107,

1热度

2回答

使用dropna（）选择多列

我有以下数据框中选择一个子集： df = pd.DataFrame([[1,2,3,3],[10,20,2,],[10,2,5,],[1,3],[2]],columns = ['a','b','c','d']) 从这个数据帧，我要删除的行，其中在子集[“B”，“C的所有值'，'d']是NA，这意味着最后一行应该被删除。下面的代码工作： df.dropna(subset=['b', 'c',

1热度

1回答

将逗号分隔字符串的数据框转换为单热编码

我有一个由一列组成的大数据框（'数据'）。该列中的每一行都由一个字符串组成，每个字符串由逗号分隔的类别组成。我希望对这些数据进行热门编码。例如， data = {"mesh": ["A, B, C", "C,B", ""]} 从这个我想获得一个数据帧包括： index A B. C 0 1 1 1 1 0 1 1 2 0 0 0 我怎样才能做到这一点？

0热度

1回答

使用无需迭代的应用程序将代码分配给pandas数据帧

我想根据给定行中的数字顺序对数字数据框进行编码。数字序列本身具有我想捕捉的意义。我能够使用循环来解决这个问题，但这非常耗时。开始DF： 2017-10-06 2017-10-07 2017-10-08 id 1 1.0 46.0 5.0 2 16.0 1.0 0.0 3 23.0 123.0 0.0 4 1.0 0.0

1热度

2回答

给列值计数python pandas

提前道歉，我无法创建代码来生成示例数据。这是我的数据框，列B，C，D，E有预约日期。我正在计算每行存在的日期数并将该数附加到列G，而不打扰列A和F.我是否需要函数？数值的真/假然后计数？有一个简单的方法吗？ A B C D E F G 0 1 20171021 20171021 20171021 20171021 id_123 1 2 NaN 20171021

0热度

1回答

python3：JSON数据被读取

我有从webscraping微博在记事本中打开JSON一些JSON数据之后稍微改变++示出此示例关键值对： "id_str": "823962574509248514", 但在JSON读取后（我有两种方式如下图）： filename = "../TheTweets/data/short.json" columnName = ['id_str','created_at', 'full_text

0热度

1回答

从函数返回列值的Python函数

我想用两个参数创建一个函数，它返回名称列中的某个特定名称。第一个参数是现有的数据框，第二个参数是名称。我知道如何从行提取特定的值，但把它在多参数的函数是我的问题： def returnDataForOneName(namesDF, name): for string in name: ?--> return [string.values() for string in name

0热度

1回答

在Python数据框中处理缺失索引的最佳方式是什么？

我打开一个CSV文件，其中索引由日期组成的pandas DataFrame。我想处理缺失的时间索引，那么最好的办法是什么？我知道filter()和fillna()，还有另外一个功能吗？

1热度

1回答

使用xarray合并基于列的熊猫数据框

我有一个数据框字典，其中每个字典键对应于样本名称，数据框本身有一个“时间”列和一些测量列（温度，浓度等）。时间列在样本中不一致（不同样本的开始和结束时间不同，尽管我认为所有时间点在开始和结束之间都被测量/具有相同的dT）。我想合并所有的数据到一个单一的xarray，其中一个轴是时间，另一个轴是测量类型，第三个轴是样本名称。由于并非所有时间都是针对所有样本进行测量的，因此应将丢失的数据替换为nan

1热度

1回答

合并3个相同名称的数据库，并将它们重命名为python

我有3个df，每个列有25个列。所有列在3 df中都是相同的。我想合并三个df，并将25列df1的列名更改为“_a”，将25列df2更改为“_b”，将25列df3更改为“_c”。我使用下面的代码： pd.merge(pd.merge(df1,df2,'left',on='year',suffixes=['_a','_b']),df3,'left',on='year') 如何使用重命名或其他