使用python将一列转换为多行
我有一个包含 3 列的数据集“df”。
>> Original Data
Student Id Name Marks
0 id_1 John 112
1 id_2 Rafs 181
2 id_2 Rafs 182
3 id_2 Rafs 183
4 id_3 Juan 222
5 id_3 Juan 312
6 id_3 Roller 21
试图保持列 'Student_Id' 和 'Name' 不变,但将 'Marks' 转换为多列。这样每个唯一的“Student_Id”和“Name”都将有一行所有可能的标记。此外,我们不需要手动创建列,但应根据值动态创建列。
>> Expected Output
Student Id Name Marks1 Marks2 Marks3
0 id_1 John 112 <NA> <NA>
1 id_2 Rafs 181 182 183
2 id_3 Juan 222 312 <NA>
3 id_3 Roller 21 <NA> <NA>
用于复制输入的示例数据
import pandas as pd
data = [
["id_1", 'John', 112],
["id_2", 'Rafs', 181],
["id_2", 'Rafs', 182],
["id_2", 'Rafs', 183],
["id_3", 'Juan', 222],
["id_3", 'Juan', 312],
["id_3", 'Roller', 21]
]
df = pd.DataFrame(data, columns = ['Student Id', 'Name', 'Marks'])
我尝试了以下操作,但没有获得所需的输出。它在括号()中给出结果,也缺少标记。
df3 = df.pivot_table(index=['Student Id','Name'], columns='Marks', aggfunc = 'max')
>>Output
Empty DataFrame
Columns: []
Index: [(id_1, John), (id_2, Rafs), (id_3, Juan), (id_3, Roller)]
回答
使用GroupBy.cumcount用于创建计数器列新列MultiIndex在df3:
df['g'] = df.groupby(['Student Id','Name']).cumcount().add(1)
df3 = (df.pivot_table(index=['Student Id','Name'],
columns='g',
values='Marks',
aggfunc = 'max')
.add_prefix('Marks')
.rename_axis(None, axis=1)
.reset_index())
print (df3)
Student Id Name Marks1 Marks2 Marks3
0 id_1 John 112.0 NaN NaN
1 id_2 Rafs 181.0 182.0 183.0
2 id_3 Juan 222.0 312.0 NaN
3 id_3 Roller 21.0 NaN NaN
如果需要缺少值的整数:
df['g'] = df.groupby(['Student Id','Name']).cumcount().add(1)
df3 = (df.pivot_table(index=['Student Id','Name'],
columns='g',
values='Marks',
aggfunc = 'max')
.add_prefix('Marks')
.astype('Int64')
.rename_axis(None, axis=1)
.reset_index())
print (df3)
Student Id Name Marks1 Marks2 Marks3
0 id_1 John 112 <NA> <NA>
1 id_2 Rafs 181 182 183
2 id_3 Juan 222 312 <NA>
3 id_3 Roller 21 <NA> <NA>