保留数据框中的行，对于某些列的值的所有组合，在另一列中包含相同的元素

html5 • 2022年11月5日 am3:31 • 问答

df = pd.DataFrame({'a':['x','x','x','x','x','y','y','y','y','y'],'b':['z','z','z','w','w','z','z','w','w','w'],'c':['c1','c2','c3','c1','c3','c1','c3','c1','c2','c3'],'d':range(1,11)})

   a  b   c   d
0  x  z  c1   1
1  x  z  c2   2
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
8  y  w  c2   9
9  y  w  c3  10

我怎么能只保留行，对于所有的组合a和b，包含相同的值c？或者换句话说，如何与排除行c了仅在一些组合的现值a和b？

例如，只有c1andc3出现在aand b( [x,z], [x,w], [y,z], [y,w]) 的所有组合中，因此输出将是

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

回答

这是一种方法。获取每个组的唯一列表，然后使用reduce和检查所有返回数组中的公共元素np.intersect1d。然后使用series.isin和过滤数据框boolean indexing

from functools import reduce
out = df[df['c'].isin(reduce(np.intersect1d,df.groupby(['a','b'])['c'].unique()))]

分解：

s = df.groupby(['a','b'])['c'].unique()
common_elements = reduce(np.intersect1d,s)
#Returns :-> array(['c1', 'c3'], dtype=object)

out = df[df['c'].isin(common_elements )]#.copy()

回答

让我们试着groupby用nunique每列的独特元素的计数c组：

s = df['a'] + ',' + df['b'] # combination of a, b
m = s.groupby(df['c']).transform('nunique').eq(s.nunique())

df[m]

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

回答

尝试不同的东西 crosstab

s = pd.crosstab([df['a'],df['b']],df.c).all()
out = df.loc[df.c.isin(s.index[s])]
Out[34]: 
   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

回答

让我们尝试透视表，然后 drop NA，这意味着组合中缺少一个值：

all_data =(df.pivot(index=['a','b'], columns='c', values='c')
             .loc[:, lambda x: x.notna().all()]
             .columns)
df[df['c'].isin(all_data)]

输出：

回答

我们可以使用groupby+size和 then unstack，这将填充NaN缺少 'c' 组的 ['a', 'b'] 组。然后我们dropna将原始 DataFrame 子集化为c在 dropna 中幸存下来的值。

df[df.c.isin(df.groupby(['a', 'b', 'c']).size().unstack(-1).dropna(axis=1).columns)]

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

groupby 操作的结果仅包含c存在于的所有唯一组合中的组的列['a', 'b']，因此我们只获取 columns 属性。

df.groupby(['a', 'b', 'c']).size().unstack(-1).dropna(axis=1)

#c     c1   c3
#a b          
#x w  1.0  1.0
#  z  1.0  1.0
#y w  1.0  1.0
#  z  1.0  1.0

以上是保留数据框中的行，对于某些列的值的所有组合，在另一列中包含相同的元素的全部内容。

THE END

二维码

这段代码中-s的作用是什么，其中s是一个字符指针？

< <上一篇

由于PHP版本，Apache中的PHPMyAdmin500内部服务器错误

下一篇>>

搜索内容

保留数据框中的行，对于某些列的值的所有组合，在另一列中包含相同的元素

回答

回答

回答

回答

回答

目录

目录

推荐文章

最新文章