如何获得unique()以处理data.tables与字符列?
问题描述:
如果我使用字符串列创建R data.table而不调用stringsAsFactors=TRUE
,然后尝试使用unique
获取数据表的唯一行,则从结果表中删除字符串,尽管在确定哪些行是唯一的。如何获得unique()以处理data.tables与字符列?
> dt <- data.table(x=c('a', 'a', 'b', 'c'), y=c(1, 1, 2, 2), stringsAsFactors=FALSE)
> unique(dt)
x y
1: 1
2: 2
3: 2
> dt <- data.table(x=c('a', 'a', 'b', 'c'), y=c(1, 1, 2, 2), stringsAsFactors=TRUE)
> unique(dt)
x y
1: a 1
2: b 2
3: c 2
这是正确的行为吗?我在Cygwin上发现了R内部的一些神秘的Cygwin特定问题。下面是sessionInfo()
读出:
R version 3.4.0 (2017-04-21)
Platform: x86_64-unknown-cygwin (64-bit)
Running under: CYGWIN_NT-6.1 INT-3A02 2.8.1(0.312/5/3) 2017-07-03 14:11 x86_64 Cygwin
Matrix products: default
LAPACK: /usr/lib/R/modules/lapack.dll
locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] data.table_1.10.4
loaded via a namespace (and not attached):
[1] bit_1.1-12 compiler_3.4.0 bit64_0.9-7
答
的duplicated()
功能可以提供一种解决方法。 dt[!duplicated(dt), ]
返回相同的结果unique(dt)
两种情况下我的系统(Ubuntu Linux操作系统,R版本3.13.0-121-通用)
library(data.table)
dt <- data.table(x=factor(c('a', 'a', 'b', 'c')), y=c(1, 1, 2, 2))
all.equal(unique(dt), dt[!duplicated(dt), ])
[1] TRUE
>
dt <- data.table(x=c('a', 'a', 'b', 'c'), y=c(1, 1, 2, 2))
all.equal(unique(dt), dt[!duplicated(dt), ])
[1] TRUE
>
相关职位上:Finding ALL duplicate rows, including "elements with smaller subscripts"
+0
我不知道为什么这应该工作,但它确实。谢谢! –
在我的机器(Ubuntu的16.04带的r版本3.4.1(2017-06-30) - “单个蜡烛”)它也在使用第一个选项。 – Garini
我并不感到惊讶;我以前只有Cygwin的R字符串问题(https://stackoverflow.com/questions/44187906/merging-large-data-tables-on-character-columns-causes-segfault)。 –