pandas

    2热度

    1回答

    我试图显示一个数据框作为具有xlim的自定义日期范围的条形图。我能够输出的曲线图,如果我选择kind='line'但我得到以下错误消息试图kind='bar'时: TypeError: ufunc 'isfinite' not supported for the input types, and the inputs could not be safely coerced to any suppo

    0热度

    1回答

    我有一个DataFrame与索引SubjectID两列与整数值。我只想保留在Value 1列和Value 2列中具有值的主题,并且摆脱仅具有一个值的主题。 这里是我的数据帧的例子: SubjectID Value1 Value2 B1 1.57 1.75 B2 N/A 1.56 所以我只是想保持第一排。这是迄今为止我所编写的代码: df_to_add = [] for sub

    3热度

    2回答

    我有一个熊猫数据帧像一列:(其value_counts如下所示) 1 246804 2 135272 5 8983 8 3459 4 3177 6 1278 9 522 D 314 E 91 0 29 F 20 Name: Admission_Source

    7热度

    2回答

    我需要帮助转换我的数据,以便我可以读取事务数据。 商业案例 我想组一起一定的关联交易,以创建活动的一些群体或阶层。这个数据集代表了工作人员出席各种缺席活动。我想根据离开事件类365天内的任何交易创建一类叶子。为了绘制趋势图,我想给这些类编号,以便得到一个序列/模式。 我的代码允许我查看第一个事件发生的时间,它可以识别新类何时开始,但不会将每个事务分为一个类。 要求: 标签的所有行依据是什么让他们班

    2热度

    2回答

    我是Python和Pandas的新手,我已经拉入了一个包含15个以上不同日期时间列的数据库表。我的任务是通常按行中的最新值排序这些列。但是,数据并不干净。有时候,A列的日期会在第0行的B列日期之前出现,A会在第1行的B之后出现。 我编写了几个函数(为简单起见,此处编辑)通过计算时间百分比在一个日期来之前和B之后,然后根据这个百分比排序的列: def get_percentage(df, df_su

    2热度

    2回答

    我有一个熊猫数据框中的列从0到172800000以10步为单位。我想从那天的午夜开始将指定日期转换为日期时间戳。 因此,假设, time = np.arange(0,172800000, 10) 我想这个转换的格式如下: YYYY-MM-DD: HH:MM:SS.XXX 的起始日期应该是2016年9月20日。 这里是我做了什么: # Create a dummy frame as an e

    3热度

    1回答

    我正在使用一个熊猫DataFrame。我想在满足特定条件时将列指示符变量赋值为1。我计算特定组的分位数。如果该值是位数外,我想将列指示器变量分配给1。例如,下列代码打印每个组的位数: df[df['LENGTH'] > 1].groupby(['CLIMATE', 'TEMP'])['LENGTH'].quantile(.95)] 现在对于在我的数据帧其是大于所有观察分组的价值,我想用设置 d

    0热度

    1回答

    我有一个数据帧,看起来像这样: DATETIME | TAGNAME1 | TAGNAME2 0 DESCRIPTION | TAG_DESCRIPTION | TAG2_DESCRIPTION 1 01/01/2015 00:00:00 | 100 | 200 我需要有以下结果 DATETIME | TAGNAME | DESCRIPTION | VALU

    1热度

    1回答

    请参阅在链接的形象最好看的输入和输出要求的格式和阅读以下 我试图说明取一个3(或2)列csv并创建一个新的csv,其中对于每个唯一的第一个元素(即第二列),所有唯一的第0个元素被分组,以便输出csv行的结构如此: 唯一的第一个元素,独特的0个元素#1,独特的0个元素#2,... 使用Python 3.xo r Python 2.x或Hive或SQL。非常感谢任何建议。谢谢!

    4热度

    3回答

    添加新列有这样 A B 0 a 1 1 b 2 2 c 3 3 d nan 4 e nan 一个数据帧我想补充的C柱像下面 A B C 0 a 1 a1 1 b 2 b2 2 c 3 c3 3 d nan d 4 e nan e 所以,我想 df["C"]=df.A+df.B 但它返回 C a1 b2 c3 nan nan 怎样才能得到正确的结果?