如何删除特定列中带有NA的行，但前提是它们在另一列中有重复项？

html5 • 2022年11月4日 am12:41 • 问答

所以我有这个数据框，其中有些行在“物种”列中重复，有些则没有。所有类型的行中都有 NA，重复和不重复。

Species            |  A  |  B  |  
--------------------------------
Tilapia guineensis |  1  |  10 |  
Tilapia guineensis |  1  |  NA |   
Tilapia zillii     |  3  |  23 |  
Tilapia zillii     |  3  |  NA |  
Eutrigla gurnardus | 18  |  4  |
Caramila artida    |  9  |  NA |  
Sprattus sprattus  |  7  |  6  |
Spalili burcant    | 11  |  NA |

我想删除那些在 B 列中有 NA 的行，但前提是它们属于重复行。我的输出将是这样的：

Species            |  A  |  B  |  
--------------------------------
Tilapia guineensis |  1  |  10 |    
Tilapia zillii     |  3  |  23 |    
Eutrigla gurnardus | 18  |  4  |
Caramila artida    |  9  |  NA |  
Sprattus sprattus  |  7  |  6  |
Spalili burcant    | 11  |  NA |

基本上，如果某行在 Species 列中重复并且在 B 列中有一个 NA，我想用 NA 删除该行。但是，如果某行在 Species 列中是唯一的，即使它有 NA，我也想保留它。

对不起，如果我感到困惑，提前致谢。

可重现的数据格式：

df <- read.csv(text="
Species,A,B
Tilapia guineensis,1,10
Tilapia guineensis,1,NA
Tilapia zillii,3,23
Tilapia zillii,3,NA
Eutrigla gurnardus,18,4
Caramila artida,9,NA
Sprattus sprattus,7,6
Spalili burcant,11,NA")

回答

我认为您可以避免使用任何分组逻辑，并在一次通过中获得结果：

df[!(duplicated(df$Species) & is.na(df$B)),]
#             Species  A  B
#1 Tilapia guineensis  1 10
#3     Tilapia zillii  3 23
#5 Eutrigla gurnardus 18  4
#6    Caramila artida  9 NA
#7  Sprattus sprattus  7  6
#8    Spalili burcant 11 NA

回答

如果只有 1 行Species或不是NA值，您可以选择一行。

library(dplyr)
df %>% group_by(Species) %>% filter(n() == 1 | !is.na(B))

#  Species                A     B
#  <chr>              <int> <int>
#1 Tilapia guineensis     1    10
#2 Tilapia zillii         3    23
#3 Eutrigla gurnardus    18     4
#4 Caramila artida        9    NA
#5 Sprattus sprattus      7     6
#6 Spalili burcant       11    NA

您还可以在基本 R 和中编写相同的逻辑data.table：

#Base R
subset(df, ave(!is.na(B), Species, FUN = function(x) length(x) == 1 | x))

#data.table
library(data.table)
setDT(df)[, .SD[.N == 1 | !is.na(B)], Species]

数据

df <- structure(list(Species = c("Tilapia guineensis", "Tilapia guineensis", 
"Tilapia zillii", "Tilapia zillii", "Eutrigla gurnardus", "Caramila artida", 
"Sprattus sprattus", "Spalili burcant"), A = c(1L, 1L, 3L, 3L, 
18L, 9L, 7L, 11L), B = c(10L, NA, 23L, NA, 4L, NA, 6L, NA)), row.names = c(NA, 
-8L), class = "data.frame")

以上是如何删除特定列中带有NA的行，但前提是它们在另一列中有重复项？的全部内容。

THE END

二维码

PowerShell$_语法

< <上一篇

理解卷积网络层

下一篇>>

搜索内容

如何删除特定列中带有NA的行，但前提是它们在另一列中有重复项？

回答

回答

目录

目录

推荐文章

最新文章