将数据从长格式转换为宽格式 - 多个变量
我正在尝试使用dcast函数将数据从long变为wide。将数据从长格式转换为宽格式 - 多个变量
目标是在value.var参数中使用不同的变量,但R不允许我在其中使用多个值。
有没有其他方法可以修复它?我看过其他类似的问题,但我一直没有找到类似的例子。
我送的细节
这里是我当前的数据 数据集 - 世界
+---------+------+--------+--------------+------------+
| Country | Year | Growth | Unemployment | Population |
+---------+------+--------+--------------+------------+
| A | 2015 | 2 | 8.3 | 40 |
| B | 2015 | 3 | 9.2 | 32 |
| C | 2015 | 2.5 | 9.1 | 30 |
| D | 2015 | 1.5 | 6.1 | 27 |
| A | 2016 | 4 | 8.1 | 42 |
| B | 2016 | 3.5 | 9 | 32.5 |
| C | 2016 | 3.7 | 9 | 31 |
| D | 2016 | 3.1 | 5.3 | 29 |
| A | 2017 | 4.5 | 8.1 | 42.5 |
| B | 2017 | 4.4 | 8.4 | 33 |
| C | 2017 | 4.3 | 8.5 | 30 |
| D | 2017 | 4.2 | 5.2 | 30 |
+---------+------+--------+--------------+------------+
我的目标是今年列传递到列的其余部分(增长,失业和人口) 。我正在使用下面的dcast功能。
data_wide <- dcast(world, country ~ year,
value.var=c("Growth","Unemployment","Population"))
理想的结果
+---------+-------------+-------------------+-----------------+-------------+-------------------+-----------------+
| Country | Growth_2015 | Unemployment_2015 | Population_2015 | Growth_2016 | Unemployment_2016 | Population_2016 |
+---------+-------------+-------------------+-----------------+-------------+-------------------+-----------------+
| A | 2 | 8.3 | 40 | 4 | 8.1 | 42 |
| B | 3 | 9.2 | 32 | 3.5 | 9 | 32.5 |
| C | 2.5 | 9.1 | 30 | 3.7 | 9 | 31 |
| D | 1.5 | 6.1 | 27 | 3.1 | 5.3 | 29 |
+---------+-------------+-------------------+-----------------+-------------+-------------------+-----------------+
由OP给出的dcast()
语句的工作几乎完美的与最新版本的data.table
包,因为这些允许多个测量变量与dcast()
和melt()
使用:
library(data.table) # CRAN version 1.10.4
setDT(world) # coerce to data.table
data_wide <- dcast(world, Country ~ Year,
value.var = c("Growth", "Unemployment", "Population"))
data_wide
# Country Growth_2015 Growth_2016 Growth_2017 Unemployment_2015 Unemployment_2016 Unemployment_2017 Population_2015
#1: A 2.0 4.0 4.5 8.3 8.1 8.1 40
#2: B 3.0 3.5 4.4 9.2 9.0 8.4 32
#3: C 2.5 3.7 4.3 9.1 9.0 8.5 30
#4: D 1.5 3.1 4.2 6.1 5.3 5.2 27
# Population_2016 Population_2017
1: 42.0 42.5
2: 32.5 33.0
3: 31.0 30.0
4: 29.0 30.0
这是结果为相同tidyr
solution。
然而,OP已要求一个特定的列顺序为他理想的解决方案其中每年的不同测量变量组合在一起。
如果列的正确顺序很重要,有两种方法可以实现这一点。第一种方法是重新排序适当地使用setcolorder()
的列:
new_ord <- CJ(world$Year, c("Growth","Unemployment","Population"),
sorted = FALSE, unique = TRUE)[, paste(V2, V1, sep = "_")]
setcolorder(data_wide, c("Country", new_ord))
data_wide
# Country Growth_2015 Unemployment_2015 Population_2015 Growth_2016 Unemployment_2016 Population_2016 Growth_2017
#1: A 2.0 8.3 40 4.0 8.1 42.0 4.5
#2: B 3.0 9.2 32 3.5 9.0 32.5 4.4
#3: C 2.5 9.1 30 3.7 9.0 31.0 4.3
#4: D 1.5 6.1 27 3.1 5.3 29.0 4.2
# Unemployment_2017 Population_2017
#1: 8.1 42.5
#2: 8.4 33.0
#3: 8.5 30.0
#4: 5.2 30.0
注意的交叉联接功能CJ()
被用于创建矢量的叉积。
另一种方法来达到所需的列顺序是熔化重铸:
molten <- melt(world, id.vars = c("Country", "Year"))
dcast(molten, Country ~ Year + variable)
# Country 2015_Growth 2015_Unemployment 2015_Population 2016_Growth 2016_Unemployment 2016_Population 2017_Growth
#1: A 2.0 8.3 40 4.0 8.1 42.0 4.5
#2: B 3.0 9.2 32 3.5 9.0 32.5 4.4
#3: C 2.5 9.1 30 3.7 9.0 31.0 4.3
#4: D 1.5 6.1 27 3.1 5.3 29.0 4.2
# 2017_Unemployment 2017_Population
#1: 8.1 42.5
#2: 8.4 33.0
#3: 8.5 30.0
#4: 5.2 30.0
如果你不嫁给一个dcast的解决方案,我个人觉得tidyr容易。
library(tidyr)
df <- df %>%
gather(key, value, -Country, -Year) %>%
unite(new.col, c(key, Year)) %>%
spread(new.col, value)
结果
Country Growth_2015 Growth_2016 Growth_2017 Population_2015 Population_2016 Population_2017 Unemployment_2015 Unemployment_2016 Unemployment_2017
1 A 2.0 4.0 4.5 40 42.0 42.5 8.3 8.1 8.1
2 B 3.0 3.5 4.4 32 32.5 33.0 9.2 9.0 8.4
3 C 2.5 3.7 4.3 30 31.0 30.0 9.1 9.0 8.5
4 D 1.5 3.1 4.2 27 29.0 30.0 6.1 5.3 5.2
该作品以
堆叠的所有值成一列...
变量名和年份列组合到单个列...
新的列然后传播到宽格式
请显示结果,谢谢。 – Uwe
感谢您的回复。我刚刚运行代码,并得到以下错误:错误:is.character(x)不是TRUE。现在看看它。 – Juanma
嗯,对不起@Juan,对于我来说,这似乎对您提供的数据有效。你会得到这个子集的错误吗?如果你只在整个数据集上运行“收集”线,那怎么办? – user127649
请勿张贴仅适用于图像。同时发布'dput(X)'的输出,其中X是您的输入数据帧(如果该数据帧较大,则为X的充分削减版本)。没有人可以尝试你的数据,而不用手工输入,而且不能完全确定列的类。 –
我的第一个猜测是尝试'重塑(世界,方向=“宽”,timevar =“年”,idvar =“国家”)' –
嗨@Juan。您实际上可以编辑您的问题,删除您的图像,然后复制粘贴值。另外,正如前面的评论所述,如果你添加了'dput(X)'的结果将会非常有用。这让任何想要提供有效答案的人都更容易。谢谢! – lrnzcig