我想知道是否可以使用 Pandas 为列的 max values 创建一个新列(对应不同的名称,这样每个名称都会有一个 max value)。
例如:
name value max
Alice 1 9
Linda 1 1
Ben 3 5
Alice 4 9
Alice 9 9
Ben 5 5
Linda 1 1
所以对于 Alice,我们选择 1、4 和 9 中的 max,即 9。对于 Linda max(1,1) = 1,对于 Ben max(3,5) = 5。
我正在考虑使用 .loc
选择 name == "Alice"
,然后获取这些行的 max value,然后创建新列。但由于我正在处理一个大型数据集,这似乎不是一个好的选择。有没有更聪明的方法来做到这一点,这样我就不需要知道具体的名字了?
回答1
groupby 并采用 max 给出 max 的名称,然后将其与原始 df 合并
df.merge(df.groupby(['name'])['value'].max().reset_index(),
on='name').rename(
columns={'value_x' : 'value',
'value_y' : 'max'})
name value max
0 Alice 1 9
1 Alice 4 9
2 Alice 9 9
3 Linda 1 1
4 Linda 1 1
5 Ben 3 5
6 Ben 5 5
回答2
您可以使用 transform
或 map
df['max'] = df.groupby('name')['value'].transform('max')
或者
df['max'] = df['name'].map(df.groupby('name')['value'].max())