如何从pandasdf中的每一行中创建新列

html5 • 2022年9月15日 pm1:40 • 问答

我有一个很难处理的 NBA 数据数据框。我想将 df1 更改为 df2，让两支球队和他们在同一行的比赛中得分两次，以从两支球队的角度来看比赛结果：

df1

GameID     TeamID     TeamAbb     PTS
   0        1001        TOR        99
   0        1023        ATL        86
   1        1004        DAL        102
   1        1003        POR        100
   2        1015        LAL        96
   2        1029        MIL        85

df2

GameID     Team1ID     Team2ID     Team1Abb      Team2Abb    Team1PTS    Team2PTS
   0        1001        1023         TOR           ATL          99          86
   0        1023        1001         ATL           TOR          86          99
   1        1004        1003         DAL           POR          102         100
   1        1003        1004         POR           DAL          100         102

所以本质上是数据框的一种加宽。

回答

尝试：

df2 = df1.set_index(['GameID', df1.groupby('GameID').cumcount()+1]).unstack()
df2.columns=[f'{i}_{j}' for i, j in df2.columns]
df2.reset_index()

输出：

  GameID  TeamID_1  TeamID_2 TeamAbb_1 TeamAbb_2  PTS_1  PTS_2
0       0      1001      1023       TOR       ATL     99     86
1       1      1004      1003       DAL       POR    102    100
2       2      1015      1029       LAL       MIL     96     85

细节：

使用“游戏ID”来groupby和cumcount得到1和2。
然后，使用列表理解将 group 创建的多索引列标题展平
最后， reset_index

根据下面的评论更新：

#Create home team and visiting team records
g = df.groupby('GameID').cumcount()
dfh = df.set_index(['GameID', g + 1])
dfv = df.set_index(['GameID', 2 - g])

dfh = dfh.unstack()
dfh.columns = [f'{i}_{j}' for i, j in dfh.columns]

dfv = dfv.unstack()
dfv.columns = [f'{i}_{j}' for i, j in dfv.columns]

# concatenate home and visiting records
pd.concat([dfh, dfv]).sort_index().reset_index()

输出：

   GameID  TeamID_1  TeamID_2 TeamAbb_1 TeamAbb_2  PTS_1  PTS_2
0       0      1001      1023       TOR       ATL     99     86
1       0      1023      1001       ATL       TOR     86     99
2       1      1004      1003       DAL       POR    102    100
3       1      1003      1004       POR       DAL    100    102
4       2      1015      1029       LAL       MIL     96     85
5       2      1029      1015       MIL       LAL     85     96

以上是如何从pandasdf中的每一行中创建新列的全部内容。

THE END

二维码

循环过滤列表

< <上一篇

使用具有非constexpr值的int模板函数

下一篇>>

搜索内容

如何从pandasdf中的每一行中创建新列

回答

根据下面的评论更新：

目录

目录

推荐文章

最新文章