如何按其他列的条件按行值提取数据框？

html5 • 2022年9月13日 pm2:01 • 问答

我有一个数据框如下：

#values
a=["003C", "003P1", "003P1", "003P1", "004C", "004P1", "004P2", "003C", "003P2", "003P1", "003C", "003P1", "003P2", "003C", "003P1", "004C", "004P2", "001C", "001P1"]
b=["chr18", "chr20", "chr8", "chr8", "chr11", "chr11", "chr11", "chr11", "chr11", "chr11", "chr1", "chr1", "chr1", "chr1", "chr1", "chr11", "chr11", "chr9", "chr9"]
c=[48399,145653,244695,244695,1163940,1163940,1163940,5986513,5986513,5986513,248650751,248650751,248650751,125895,125895,2587895,2587895,14587952,14587952]
d=["C", "G", "C", "C", "C", "C", "C", "G", "G", "G", "T", "T", "T", "T", "T", "C", "C", "T", "T"]
e=["A", "T", "A", "A", "G", "G", "G", "A", "A", "A", "A", "A", "A", "A", "A", "G", "G", "C", "C"]
#Make dataframe
df = pd.DataFrame({'Sample':a, 'CHROM':b, 'POS':c, 'REF':d, 'ALT':e})

    Sample  CHROM   POS         REF  ALT
0   003C    chr18   48399       C    A
1   003P1   chr20   145653      G    T
2   003P1   chr8    244695      C    A
3   003P1   chr8    244695      C    A
4   004C    chr11   1163940     C    G
5   004P1   chr11   1163940     C    G
6   004P2   chr11   1163940     C    G
7   003C    chr11   5986513     G    A
8   003P2   chr11   5986513     G    A
9   003P1   chr11   5986513     G    A
10  003C    chr1    248650751   T    A
11  003P1   chr1    248650751   T    A
12  003P2   chr1    248650751   T    A
13  003C    chr1    125895      T    A
14  003P1   chr1    125895      T    A
15  004C    chr11   2587895     C    G
16  004P2   chr11   2587895     C    G
17  001C    chr9    14587952    T   C
18  001P1   chr9    14587952    T   C

我想提取数据帧匹配'CHROM' 'POS' 'REF' 'ALT'的df['Sample']有C共同点P1或P2或P1＆P2。例如003C：具有其造成相应003P1 003P2或与所有匹配值'CHROM' 'POS' 'REF' 'ALT'见索引7,8,9和13,14和10,11,12。我想把它们全部提取出来：

预期的输出是：

    Sample  CHROM   POS       REF   ALT
0   003C    chr1    125895     T    A
1   003P1   chr1    125895     T    A
2   004C    chr11   1163940    C    G
3   004P1   chr11   1163940    C    G
4   004P2   chr11   1163940    C    G
5   004C    chr11   2587895    C    G
6   004P2   chr11   2587895    C    G
7   003C    chr11   5986513    G    A
8   003P2   chr11   5986513    G    A
9   003P1   chr11   5986513    G    A
10  001C    chr9    14587952   T    C
11  001P1   chr9    14587952   T    C
12  003C    chr1    248650751  T    A
13  003P1   chr1    248650751  T    A
14  003P2   chr1    248650751  T    A

我尝试了以下代码：

df[['INT','STR']] = df['Sample'].str.extract('(d+)(.*)')
df = df[df.groupby(['CHROM', 'POS', 'REF', 'ALT', 'INT'])['STR'].transform('size').eq(3)]

但是它拉只有在所有三个像普通C, P1 and P2没有C, P1 or P2。

任何帮助表示赞赏。谢谢

回答

解决方案

c = ['CHROM', 'POS', 'REF', 'ALT', 'INT']
df[['INT','STR']] = df['Sample'].str.extract(r'(d+)(.*)')

m  = df['STR'].isin(['C', 'P1', 'P2'])
m1 = df['STR'].eq('C').groupby([*df[c].values.T]).transform('any')
m2 = df['STR'].mask(~m).groupby([*df[c].values.T]).transform('nunique').ge(2)

df = df[m & m1 & m2].sort_values('POS', ignore_index=True).drop(['INT', 'STR'], 1)

说明

Extract列INT并STR使用str.extract正则表达式模式

>>> df[['INT','STR']]

    INT STR
0   003   C
1   003  P1
2   003  P1
3   003  P1
4   004   C
5   004  P1
6   004  P2
7   003   C
8   003  P2
9   003  P1
10  003   C
11  003  P1
12  003  P2
13  003   C
14  003  P1
15  004   C
16  004  P2
17  001   C
18  001  P1

创建一个布尔掩码，isin用于检查提取的列STR仅包含值的条件C，P1以及P2

>>> m

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
10    True
11    True
12    True
13    True
14    True
15    True
16    True
17    True
18    True
Name: STR, dtype: bool

将STR列与C创建一个布尔掩码进行比较，然后将该掩码分组在列上['CHROM', 'POS', 'REF', 'ALT', 'INT']并使用转换any来创建一个布尔掩码m1

>>> m1
0      True
1     False
2     False
3     False
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
Name: STR, dtype: bool

掩蔽列STR中的值m1，False然后将布尔掩码分组为该掩码列，['CHROM', 'POS', 'REF', 'ALT', 'INT']并使用nuniquethen chain withge进行转换以创建布尔掩码m2

>>> m2

0     False
1     False
2     False
3     False
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
Name: STR, dtype: bool

现在获取logical and掩码m,m1和m2, 并使用它来过滤数据框中所需的行

>>> df[m & m1 & m2].sort_values('POS', ignore_index=True).drop(['INT', 'STR'], 1)

   Sample  CHROM        POS REF ALT
0    003C   chr1     125895   T   A
1   003P1   chr1     125895   T   A
2    004C  chr11    1163940   C   G
3   004P1  chr11    1163940   C   G
4   004P2  chr11    1163940   C   G
5    004C  chr11    2587895   C   G
6   004P2  chr11    2587895   C   G
7    003C  chr11    5986513   G   A
8   003P2  chr11    5986513   G   A
9   003P1  chr11    5986513   G   A
10   001C   chr9   14587952   T   C
11  001P1   chr9   14587952   T   C
12   003C   chr1  248650751   T   A
13  003P1   chr1  248650751   T   A
14  003P2   chr1  248650751   T   A

以上是如何按其他列的条件按行值提取数据框？的全部内容。

THE END

二维码

如何在UML图中表示C++私有继承？

< <上一篇

Pandas在多列上使用apply函数扩展

下一篇>>

搜索内容

如何按其他列的条件按行值提取数据框？

回答

解决方案

说明

目录

目录

推荐文章

最新文章