嵌套骨料内,向聚集的多个变量的多个列中的R
问题描述:
我有套分数的数据帧,并设置分组变量,类似的:嵌套骨料内,向聚集的多个变量的多个列中的R
s1 s2 s3 g1 g2 g3
4 3 7 F F T
6 2 2 T T T
2 4 9 G G F
1 3 1 T F G
我想运行的集合,在我正在做的事情:
aggregate(df[c("s1","s2","s3")],df["g1"],function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))
我想只有一行代码,所以我可以一次聚合多个变量。请注意,我并不想通过组合g1-3来获得s1-3的摘要(按照答案here)。我已经在doBy
包中看过summaryBy
,但是似乎再次考虑了每个因素的组合,而不仅仅是一个整体,这不是我想要的(虽然有用!)。我一直玩的变种:
apply(df[c("g1","g2","g3")], 2, function (z) aggregate(df[c("s1","s2","s3")],z,function(x) c(m =mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x)))
但我得到的错误:'''必须是一个列表“。我想我可以解决如何做到这一点与loop
,我知道与各种版本的ddply
或reshape
你可以得到聚合,但最直观的方式(对我来说至少)似乎是apply
和aggregate
- 我失去了什么?
答
让我们在问题中命名匿名函数,如下所示。那么,在年底的Map
声明适用于aggregate
分别df[1:3]
每个分组变量:
mean.sd.n <- function(x) c(m = mean(x, na.rm=T), sd = sd(x, na.rm=T), n = length(x))
Map(function(nm) aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])
,并提供:
$g1
g1 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 4.000000 NA 1.000000 3.0000000 NA 1.0000000 7.0000000 NA 1.0000000
2 G 2.000000 NA 1.000000 4.0000000 NA 1.0000000 9.0000000 NA 1.0000000
3 T 3.500000 3.535534 2.000000 2.5000000 0.7071068 2.0000000 1.5000000 0.7071068 2.0000000
$g2
g2 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 2.50000 2.12132 2.00000 3 0 2 4.000000 4.242641 2.000000
2 G 2.00000 NA 1.00000 4 NA 1 9.000000 NA 1.000000
3 T 6.00000 NA 1.00000 2 NA 1 2.000000 NA 1.000000
$g3
g3 s1.m s1.sd s1.n s2.m s2.sd s2.n s3.m s3.sd s3.n
1 F 2.000000 NA 1.000000 4.0000000 NA 1.0000000 9.000000 NA 1.000000
2 G 1.000000 NA 1.000000 3.0000000 NA 1.0000000 1.000000 NA 1.000000
3 T 5.000000 1.414214 2.000000 2.5000000 0.7071068 2.0000000 4.500000 3.535534 2.000000
注:这可以稍微用fn$
从gsubfn package缩短。它允许我们指定所示的代码,使用公式符号与Map
开头的行匿名函数:
library(gsubfn)
fn$Map(nm ~ aggregate(df[1:3], df[nm], mean.sd.n), names(df)[4:6])
什么是理想的输出? – 2015-02-23 17:14:03
我真的不介意,我在做一个清单。我喜欢使用数据框,但它似乎将输出集重新塑造成df实际上是一个单独的问题 – sjgknight 2015-02-23 17:16:08
@sjgknight您可以尝试'lapply(paste0('g',1:3),function(y)aggregate(cbind( s1,s2,s3)〜。,df [c(y,paste0('s',1:3))],function(x)c(mean = mean(x,na.rm = T),sd = sd (x,na.rm = T),n = length(x))))' – akrun 2015-02-23 17:29:00