基于多个级别1列的子集多索引df

我有一个多索引数据框,但对于每个 0 级变量(即列“一”和“二”),我只想保留每个级别 1 的两列。我可以分别对它们进行子集化,但我想一起做,这样我就可以并排保留这些值

这是数据框

index = pd.MultiIndex.from_tuples(list(zip(*[['bar1', 'foo1', 'bar1', 'foo2','bar3','foo3'], ['one','two','three','two','one','four']])))
df = pd.DataFrame(np.random.randn(2, 6), columns=index)

这是对级别 1 中的一列进行子集化的方法

df.iloc[:, df.columns.get_level_values(1)== 'one']
# or 
df.xs('one', level=1, axis=1)

# but adding two columns within either command will not work e.g. 
df.xs(('one','two), level=1, axis=1)

这将是预期的输出

         bar1        foo1       foo2         bar3
          one         two        two          one
0   -0.508272   -0.195379   0.865563     2.002205
1   -0.771565    1.360479   1.900931    -1.589277

欢迎任何建议,非常感谢!

回答

这是使用的一种方法pd.IndexSlice

idnx = pd.IndexSlice[:, ['one', 'two']]
df.loc[:, idnx]

输出:

       bar1      bar3      foo1      foo2
        one       one       two       two
0  0.589999  0.261224 -0.106588 -2.309628
1  0.646201 -0.491110  0.430724  1.027424
       bar1      bar3      foo1      foo2
        one       one       two       two
0  0.589999  0.261224 -0.106588 -2.309628
1  0.646201 -0.491110  0.430724  1.027424

另一种使用鲜为人知的参数axis, of 的方法pd.DataFrame.loc

df.loc(axis=1)[:, ['one', 'two']]

输出:

注意:此参数未在 pd.DataFrame.loc 的文档化 API 中列出,但在使用切片器段落中的 MultiIndex/Advanced indexing 部分的用户指南中引用了一个示例。


回答

我们可以Index.isin在特定级别上使用来创建布尔索引并选择loc

df.loc[:, df.columns.isin(['one', 'two'], level=1)]

df

       bar1      foo1      foo2      bar3
        one       two       two       one
0  0.042062 -0.233098  0.620974  0.330957
1  0.524495 -0.394930  0.572631  0.499279


回答

您可以reindex并指定level.

df.reindex(['one', 'two'], axis=1, level=1)

       bar1      foo1      foo2      bar3
        one       two       two       one
0  0.276056  1.956400 -1.495128  1.582220
1 -0.383178  1.159138 -1.646173  0.821942


以上是基于多个级别1列的子集多索引df的全部内容。
THE END
分享
二维码
< <上一篇
下一篇>>