将观察值设置为R中该观察值的最小值

问题描述：

我对R相对较新，并且努力在R中“矢量化”所有代码。尽管我很欣赏这是正确的方法。将观察值设置为R中该观察值的最小值

我需要在数据框中设置一个值作为ID的最小时间。以下作品完美

ID isTrue RealTime MinTime 
1 TRUE  16  10 
1 FALSE 8   
1 TRUE  10  10 
2 TRUE  7   7 
2 TRUE  30  7 
3 FALSE 3

：

ID isTrue RealTime MinTime 
1 TRUE  16 
1 FALSE 8 
1 TRUE  10 
2 TRUE  7 
2 TRUE  30 
3 FALSE 3

要变成。然而，这需要10分钟跑，这是不理想的：

for (i in 1:nrow(df)){ 

    if (df[i,'isTrue']) { 
     prevTime <- sqldf(paste('Select min(MinTime) from dfStageIV where ID =',df[i,'ID'],sep=" "))[1,1] 
     if (is.na(prevTime) | is.na(df[i,'MinTime']) | df[i,'MinTime'] < prevTime){ 
     df[i,'MinTime']<-dfStageIV[i,'RealTime'] 
     } else { 
     dfStageIV[i,'MinTime']<-prevTime 
     } 
    } 
}

我应该如何正确地做到这一点？我把它用于或做循环不是在R最好的方式。我一直在看apply（）和aggregate.data.frame（）函数，但不知道如何做到这一点。有人能指引我朝着正确的方向吗？非常感激！！

看看'ave'。 – lmo

谢谢，第一次尝试是接近。 df $ MinTime user2535309

df $ MinTime user2535309

答

有人建议和快虽然它返回一吨警告：

df$MinTime<-ave(df$RealTime,df$ID, df$isTrue, FUN = min) 
df$MinTime<-ifelse(df$isTrue, df$MinTime,NA).

答

这应该是一个dplyr链快得多。在这里，我们通过ID和组对数据帧进行分组，并在组级别获得最小值。然后我们可以再次取消组合，只需删除F最小值。

library(dplyr) 
df %>% 
    group_by(ID, isTrue) %>% 
    mutate(Min.all = min(RealTime)) %>% 
    ungroup() %>% 
    transmute(ID, isTrue, RealTime, MinTime = ifelse(isTrue == T, Min.all, ""))

输出：

# A tibble: 6 × 4 
    ID isTrue RealTime MinTime 
    <int> <lgl> <int> <chr> 
1  1 TRUE  16  10 
2  1 FALSE  8   
3  1 TRUE  10  10 
4  2 TRUE  7  7 
5  2 TRUE  30  7 
6  3 FALSE  3

我真的建议你熟悉dplyr，如果你打算做大量的数据帧操作的。使用AVE（）函数和以下工作

谢谢。我会深入dplyr库，因为它看起来很有帮助。正如我在下面从别人的建议中发布的，ave（）函数也适用于这个ID以及isTrue – user2535309

答

下面是使用ave，pmax和is.na两线基础R溶液。

# calculate minimum for each ID, excluding FALSE instances 
df$MinTime <- ave(pmax(df$RealTime, (!df$isTrue) * max(df$RealTime)), df$ID, FUN=min) 
# turn FALSE instances into NA 
is.na(df$MinTime) <- (!df$isTrue)

df 
    ID isTrue RealTime MinTime 
1 1 TRUE  16  10 
2 1 FALSE  8  NA 
3 1 TRUE  10  10 
4 2 TRUE  7  7 
5 2 TRUE  30  7 
6 3 FALSE  3  NA

在第一行中，pmax用于构建观测的向量如果df$isTrue为TRUE或data.frame最大实时值。这个新的向量用于最小的计算。第二行中的FALSE值设置为NA。

数据

df <- read.table(header=T, text="ID isTrue RealTime 
1 TRUE  16 
1 FALSE 8 
1 TRUE  10 
2 TRUE  7 
2 TRUE  30 
3 FALSE 3")

答

在问题中的代码可以通过做这一切在R中SQL或全部被简化（适当地向量化），而不是一半一半。已经有一些R解决方案，所以这里是一个SQL解决方案，它表明这个问题等于聚合一个自定义的自连接。

library(sqldf) 
sqldf("select a.*, min(b.RealTime) minRealTime 
     from df a 
     left join df b on a.ID = b.ID and a.isTRUE and b.isTRUE 
     group by a.rowid")

，并提供：

ID isTrue RealTime minRealTime 
1 1 TRUE  16   10 
2 1 FALSE  8   NA 
3 1 TRUE  10   10 
4 2 TRUE  7   7 
5 2 TRUE  30   7 
6 3 FALSE  3   NA

将观察值设置为R中该观察值的最小值

相关推荐