我想分析excel文件并找出数据范围(最小值,最大值,最小值,最大值,最大值,空白等)。我想要创建一个新的分析文件来分析这些见解。在找进入熊猫库做到这一点。使用熊猫分析excel
df = pd.read_excel(open('file.xlsx','rb'), sheetname='TestData')
我应该如何着手?
我想分析excel文件并找出数据范围(最小值,最大值,最小值,最大值,最大值,空白等)。我想要创建一个新的分析文件来分析这些见解。在找进入熊猫库做到这一点。使用熊猫分析excel
df = pd.read_excel(open('file.xlsx','rb'), sheetname='TestData')
我应该如何着手?
使用numpy的,以获得最大/最小等功能需要numpy的阵列的,所以无论是切片中的每一列的数据帧,或将数据帧强制转换为矩阵
https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmax.html
你可以找到一些你正在寻找的统计数据 - 最小,最大,平均(平均),标准差。偏差为数字列使用describe()方法
演示:
df = pd.read_excel(r'/path/to/file.xlsx')
In [35]: df
Out[35]:
a b c txt
0 8 5 2 dd
1 6 6 2 aa
2 3 7 9 cc
3 4 2 3 dd
4 3 3 5 cc
In [36]: df.describe()
Out[36]:
a b c
count 5.000000 5.000000 5.000000
mean 4.800000 4.600000 4.200000
std 2.167948 2.073644 2.949576
min 3.000000 2.000000 2.000000
25% 3.000000 3.000000 2.000000
50% 4.000000 5.000000 3.000000
75% 6.000000 6.000000 5.000000
max 8.000000 7.000000 9.000000