pandas

    1热度

    1回答

    我是Python新手,试图首先按行总计和列总计评估用户电影评级的数据框。按列总计筛选需要数小时才能完成,因此我想知道是否可以为我提供一些指示以优化代码。 data_cols = ['user_id','movie_id','rating'] data = pd.read_csv('netflix_data/TrainingRatings.txt', sep=',', names=data

    1热度

    1回答

    所以我有等的数据帧: |类别|地址|标签| CAT1 ADDR1 'T1,T2,T3' CAT2 ADDR2 'T4,T1,T3' 等 我已经提取了一系列标签的唯一列表。 我想要: 标签|类别|解决 T1 CAT1 ADDR1 CAT2 ADDR2 T2 CAT1 ADDR1 T3 CAT1 ADDR1 CAT2 ADDR2 我感到困惑吨如何使用groupby这里?还是它转变了?

    1热度

    1回答

    我有一个数据框收入数据与国家,地区和收入。我正在尝试使用聚合来返回平均值,最小值,最大值和计数。我希望能够计数所在国家的收入大于100 raw_data = {'Country': ['A', 'B', 'C', 'D', 'E'], 'Region': ['X', 'X', 'X', 'Y', 'Y'], 'Income': [100, 200, 300, 100,

    0热度

    1回答

    训练数据= https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data 测试数据= https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test import numpy as np import pandas as p

    2热度

    2回答

    元素我使用此代码加载我的文件: with open('filepath') as myfile: data = [next(myfile) for x in xrange(100)] print data print json.dumps(data, indent=1, sort_keys=False) 在第一种情况下,结构我得到的,是这样的: [ '{"A": "Av

    0热度

    1回答

    让说,我有 sim_users critic critic Claudia Puig Gene Seymour Jack Matthews Lisa Rose Mick LaSalle Toby 0 Claudia Puig 1.000000 0.314970 0.028571 0.566947 0.566947 0.893405 1 Gene Seymour 0.314970 1.00000

    1热度

    2回答

    我有一个数据帧,看起来像: Col1 Col2 0 A PY 1 B PA 2 C PB 3 B PB 而这一系列: Value Col1 Col2 A PY 20 B PB 30 我愿做一个映射,如果该系列产品具有一个索引(例如它只是相当简单: df['Value'] = df

    -2热度

    1回答

    我有一个使用熊猫的问题。 我有这样一个表: 0 A B C d 1个S d F G ...... 和第一行中的每个元素是每个列的索引。 但我想在表格顶部添加一行,并且我希望新行成为每个colomn表的索引,我应该怎么做?谢谢!!!!

    0热度

    1回答

    我有一种使用部分字符串匹配来分配列的方法。我现在已经扩展了该方法,通过使用带有字符串列表使用for循环按照本例: 是myDF: mytestdata Colourtoassign 0 blah Orange blah FALSE 1 blah blah Red FALSE 凡Colourtoassign是一列要在部分字符串分配比赛中使用列表colourList循环: [ '黑

    0热度

    1回答

    假设我有一个DataFrame,其中包含一列A,其中只包含值'foo'和'bar',我想计算foo s的分数。要做到这一点的方法之一是使用布尔选择与__len__共同发挥作用: import pandas as pd import numpy as np df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo