如何从pandasdf中的每一行中创建新列
我有一个很难处理的 NBA 数据数据框。我想将 df1 更改为 df2,让两支球队和他们在同一行的比赛中得分两次,以从两支球队的角度来看比赛结果:
df1
GameID TeamID TeamAbb PTS
0 1001 TOR 99
0 1023 ATL 86
1 1004 DAL 102
1 1003 POR 100
2 1015 LAL 96
2 1029 MIL 85
df2
GameID Team1ID Team2ID Team1Abb Team2Abb Team1PTS Team2PTS
0 1001 1023 TOR ATL 99 86
0 1023 1001 ATL TOR 86 99
1 1004 1003 DAL POR 102 100
1 1003 1004 POR DAL 100 102
所以本质上是数据框的一种加宽。
回答
尝试:
df2 = df1.set_index(['GameID', df1.groupby('GameID').cumcount()+1]).unstack()
df2.columns=[f'{i}_{j}' for i, j in df2.columns]
df2.reset_index()
输出:
GameID TeamID_1 TeamID_2 TeamAbb_1 TeamAbb_2 PTS_1 PTS_2
0 0 1001 1023 TOR ATL 99 86
1 1 1004 1003 DAL POR 102 100
2 2 1015 1029 LAL MIL 96 85
细节:
- 使用“游戏ID”来
groupby和cumcount得到1和2。 - 然后,使用列表理解将 group 创建的多索引列标题展平
- 最后,
reset_index
根据下面的评论更新:
#Create home team and visiting team records
g = df.groupby('GameID').cumcount()
dfh = df.set_index(['GameID', g + 1])
dfv = df.set_index(['GameID', 2 - g])
dfh = dfh.unstack()
dfh.columns = [f'{i}_{j}' for i, j in dfh.columns]
dfv = dfv.unstack()
dfv.columns = [f'{i}_{j}' for i, j in dfv.columns]
# concatenate home and visiting records
pd.concat([dfh, dfv]).sort_index().reset_index()
输出:
GameID TeamID_1 TeamID_2 TeamAbb_1 TeamAbb_2 PTS_1 PTS_2
0 0 1001 1023 TOR ATL 99 86
1 0 1023 1001 ATL TOR 86 99
2 1 1004 1003 DAL POR 102 100
3 1 1003 1004 POR DAL 100 102
4 2 1015 1029 LAL MIL 96 85
5 2 1029 1015 MIL LAL 85 96