pandas获取groupby分组里最大值所在的行,获取第一个等操作

阅读量：6245 次

发布时间：2019-06-22

本文共 1877 字，大约阅读时间需要 6 分钟。

10/May 2016

pandas获取groupby分组里最大值所在的行

如下面这个DataFrame,按照Mt分组，取出Count最大的那行

import pandas as pddf = pd.DataFrame({
     'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]}) df

	Count	Mt	Sp	Value
0	3	s1	a	1
1	2	s1	b	2
2	5	s2	c	3
3	10	s2	d	4
4	10	s2	e	5
5	6	s3	f	6

方法1：在分组中过滤出Count最大的行

df.groupby('Mt').apply(lambda t: t[t.Count==t.Count.max()])

		Count	Mt	Sp	Value
Mt
s1	0	3	s1	a	1
s2	3	10	s2	d	4
s2	4	10	s2	e	5
s3	5	6	s3	f	6

方法2：用transform获取原dataframe的index，然后过滤出需要的行

print df.groupby(['Mt'])['Count'].agg(max)idx=df.groupby(['Mt'])['Count'].transform(max) print idx idx1 = idx == df['Count'] print idx1 df[idx1]

Mts1     3s2    10s3     6Name: Count, dtype: int640     3 1 3 2 10 3 10 4 10 5 6 dtype: int64 0 True 1 False 2 False 3 True 4 True 5 True dtype: bool

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
4	10	s2	e	5
5	6	s3	f	6

上面的方法都有个问题是3、4行的值都是最大值，这样返回了多行，如果只要返回一行呢？

方法3：idmax（旧版本pandas是argmax）

idx = df.groupby('Mt')['Count'].idxmax()print idxdf.iloc[idx]

Mts1    0s2    3s3    5Name: Count, dtype: int64

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
5	6	s3	f	6

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
5	6	s3	f	6

def using_apply(df):    return (df.groupby('Mt').apply(lambda subf: subf['Value'][subf['Count'].idxmax()])) def using_idxmax_loc(df): idx = df.groupby('Mt')['Count'].idxmax() return df.loc[idx, ['Mt', 'Value']] print using_apply(df) using_idxmax_loc(df)

Mts1    1s2    4s3    6dtype: int64

	Mt	Value
0	s1	1
3	s2	4
5	s3	6

方法4:先排好序，然后每组取第一个

df.sort('Count', ascending=False).groupby('Mt', as_index=False).first()

	Mt	Count	Sp	Value
0	s1	3	a	1
1	s2	10	d	4
2	s3	6	f	6

那问题又来了，如果不是要取出最大值所在的行，比如要中间值所在的那行呢？

思路还是类似，可能具体写法上要做一些修改，比如方法1和2要修改max算法，方法3要自己实现一个返回index的方法。不管怎样，groupby之后，每个分组都是一个dataframe。

转载于:https://www.cnblogs.com/dylan9/p/9226957.html

你可能感兴趣的文章

[CodeWars][JS]如何判断给定的数字是否整数

查看>>

实现div毛玻璃背景

查看>>

zoj 1010 Area 判断线段是否相交（把线段扩充一倍后好处理） + 多边形求面积...

poj 1273 Drainage Ditches(最大流入门)

TopCoder SRM 628 DIV 2

R中，求五数，最小值、下四分位数、中位数、上四分位数、最大值

查看>>