R或者Python使用的一些曲曲折折
1、用Python处理数据的时候,报错:
ValueError: Input contains NaN, infinity or a value too large for dtype(‘float32’).
表格类型是csv,自己在Excel打开是没有NaN值的,用R语言判断一下有一行是NaN,估计是格式问题,用Excel格式刷刷一下,借用上面正常行的格式。
2、有时候用ggplot画图,数据区间跨度太大,离群值太多,用boxlpot不好显示。
尝试用scale函数归一化数据,然而还是显示不全,因为scale函数并不会改变数据的分布趋势。
可以尝试一下小提琴图,当然效果可能也不理想。
3、pip install -r requirement.txt -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
#一般情况下,作者都会提供这个txt文本,后面加上豆瓣源会快很多,用上述命令可以批量安装依赖的包
4、有时候python的print结果显示不完全,有省略号:
可以先导入模块sys
import sys
然后在print前一句加上:
np.set_printoptions(threshold=sys.maxsize)
此时结果可全部显示。
5、rms包用lrm时,有时候会报错Unable to fit model using “lrm.fit”
目前所知,可有两种解决办法,(1)公式里默认tol=1e-7,可以改为tol=1e-9,将默认值改小;(2)公式里添加maxit=15或者更大的值,lrm默认的是12,glm默认的是15。看网友评论说修改penalty 的值也可以,可能会影响结果,不建议。
6、善用SPSS的选择个案,用于多个组之间的两两比较很方便,不必拆分文件。通过“数据-选择个案-如果条件满足-自定义挑选方式”来挑选符合的组变量,其余为暂时自动屏蔽,不纳入计算。
7、R语言按条件筛选列数据
library(data.table);library(tidyverse)#需要的包
data <- data.table::fread(“data.csv”,data.table = F)#读取原始的数据
data18<-data %>%select(group,age)%>% filter(age<18)#筛选group和age两列数据,并筛选年龄小于18岁的数据
8、Rstudio,plot画图,plot语句里面用main参数设置标题,标题在图片外上方,而用title语句单独命名title,标题会在图片内上方
9、有时候在Rstudio画图,图的注释或者标题无法显示完全,不管怎么扩大plots的那个框框都没用
在画图前先设置内边距,par(mar=c(6,6,6,6)) #数字随便写的,自己改大小试一下,四个数字分别是下左上右四个方向,逆时针
PS:都是平时使用的遇到的小问题,记下来,以后说不定能用上~用主唱大人美图结尾