pandas

1热度

1回答

我是Python新手，试图首先按行总计和列总计评估用户电影评级的数据框。按列总计筛选需要数小时才能完成，因此我想知道是否可以为我提供一些指示以优化代码。 data_cols = ['user_id','movie_id','rating'] data = pd.read_csv('netflix_data/TrainingRatings.txt', sep=',', names=data

1热度

1回答

组通过列表或字符串的列与另一列表匹配，并创建新的数据帧

所以我有等的数据帧： |类别|地址|标签| CAT1 ADDR1 'T1，T2，T3' CAT2 ADDR2 'T4，T1，T3' 等我已经提取了一系列标签的唯一列表。我想要：标签|类别|解决 T1 CAT1 ADDR1 CAT2 ADDR2 T2 CAT1 ADDR1 T3 CAT1 ADDR1 CAT2 ADDR2 我感到困惑吨如何使用groupby这里？还是它转变了？

1热度

1回答

Python数据框条件金额

我有一个数据框收入数据与国家，地区和收入。我正在尝试使用聚合来返回平均值，最小值，最大值和计数。我希望能够计数所在国家的收入大于100 raw_data = {'Country': ['A', 'B', 'C', 'D', 'E'], 'Region': ['X', 'X', 'X', 'Y', 'Y'], 'Income': [100, 200, 300, 100,

0热度

1回答

如何设置在读csv文件正确的参数（蟒蛇，熊猫）

训练数据= https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data 测试数据= https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test import numpy as np import pandas as p

2热度

2回答

访问JSON与Python的

元素我使用此代码加载我的文件： with open('filepath') as myfile: data = [next(myfile) for x in xrange(100)] print data print json.dumps(data, indent=1, sort_keys=False) 在第一种情况下，结构我得到的，是这样的： [ '{"A": "Av

0热度

1回答

作出具体列只新的数据帧熊猫

让说，我有 sim_users critic critic Claudia Puig Gene Seymour Jack Matthews Lisa Rose Mick LaSalle Toby 0 Claudia Puig 1.000000 0.314970 0.028571 0.566947 0.566947 0.893405 1 Gene Seymour 0.314970 1.00000

1热度

2回答

地图上2列大熊猫

我有一个数据帧，看起来像： Col1 Col2 0 A PY 1 B PA 2 C PB 3 B PB 而这一系列： Value Col1 Col2 A PY 20 B PB 30 我愿做一个映射，如果该系列产品具有一个索引（例如它只是相当简单： df['Value'] = df

-2热度

1回答

如何使用熊猫在表格中添加一行作为索引？

我有一个使用熊猫的问题。我有这样一个表： 0 A B C d 1个S d F G ...... 和第一行中的每个元素是每个列的索引。但我想在表格顶部添加一行，并且我希望新行成为每个colomn表的索引，我应该怎么做？谢谢！！！！

0热度

1回答

Pandas使用for循环设置部分字符串匹配的列：使用包含NaN的向量进行索引错误

我有一种使用部分字符串匹配来分配列的方法。我现在已经扩展了该方法，通过使用带有字符串列表使用for循环按照本例：是myDF： mytestdata Colourtoassign 0 blah Orange blah FALSE 1 blah blah Red FALSE 凡Colourtoassign是一列要在部分字符串分配比赛中使用列表colourList循环： [ '黑

0热度

1回答

如何获得熊猫系列中某个特定值的分数？

假设我有一个DataFrame，其中包含一列A，其中只包含值'foo'和'bar'，我想计算foo s的分数。要做到这一点的方法之一是使用布尔选择与__len__共同发挥作用： import pandas as pd import numpy as np df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar', 'foo