pandas分组排序如何获取第二大的数据_Python

pandas分组排序如何获取第二大的数据

2021-09-28 08:49这里风太大 Python

这篇文章主要介绍了pandas分组排序获取第二大的数据的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python用来做数据分析很方便，网上很多关于找数据中第二大的方法，但是大多数都是关于SQL的，于是我挑战一下用Python来做这件事（主要是SQL写的不好>_<）,上代码。

1、数据我是自己编的

在实际工作中应该从数据库中导入数据，如何从数据库导出数据，我之后会补充。

				?

									import pandas as pd

									df = pd.DataFrame([

									    {"class": 1, "name": "aa", "english": 120},

									    {"class": 1, "name": "bb", "english": 110},

									    {"class": 1, "name": "cc", "english": 110},

									    {"class": 1, "name": "dd", "english": 110},

									    {"class": 2, "name": "ee", "english": 120},

									    {"class": 2, "name": "ff", "english": 140},

									    {"class": 2, "name": "gg", "english": 130},

									    {"class": 2, "name": "hh", "english": 130},

									    {"class": 3, "name": "tt", "english": 130},

									    {"class": 4, "name": "xx", "english": 130},

									    {"class": 4, "name": "yy", "english": 130},

									    {"class": 5, "name": "zz", "english": None},

									  ])

2、分组取第二大的数据

				?

									def fun(df):

									  # english数据去重

									  sort_set = set(df["english"].values.tolist())

									  if len(sort_set)<=1:

									    # 数据量小于等于1，无法取到第二大的数据

									    return None

									  else:

									    # 取english中第二大的值

									    sort_value = sorted(sort_set,reverse=True)[1]

									    temp_df = df[df["english"]==sort_value]

									    return temp_df

									df = df.groupby(by=["class"]).apply(fun).reset_index(drop=True)

									print(df)

结果如下：

				?

									  class name english

									0 1 bb 110.0

									1 1 cc 110.0

									2 1 dd 110.0

									3 2 gg 130.0

									4 2 hh 130.0

3、写完啦，就这么简单

当然这还可以改为取最大、取最小、取第三大、等等......

补充：pandas 按某一列A排序，按B和C两列分组，选择分组后A列值最大的行

pandas 按某一列A排序，按B和C两列分组，选择分组后A列值最大的行

一、需求

按 updateTime 列倒序排序，按 B 和 C 两列分组，分组后选择最后更新的时间的那一行，并将结果加上新索引。

二、代码

				?

									import pandas as pd

									data = pd.read_csv('test.csv')

									df = pd.DataFrame(data)

									df = df.sort_values('updateTime', ascending=False).groupby(['B','C']).first().reset_index()

first() 函数代表选择第一行，如果要选取多行，可以使用 head() 函数： head(5)表示选择前五行。

如下例：

				?

									import pandas as pd 

									data = pd.read_csv('test.csv',header = 0)

									df = pd.DataFrame(data) 

									# 按日期分组，分组后对 value 列从大到小排序，取每组前十行

									df = df.groupby('date', group_keys=False).apply(lambda x: x.sort_values('value', ascending=False)).groupby('date').head(10).reset_index()