R笔记1

setwd('C:/Users/Administrator/Desktop')
LC <- read.csv('LC.csv',header = T,sep = ',',quote = '')

#清除空值

LCS <- na.omit(LC)

R笔记1

 

#表
#频数分布表
table(LCS$性别)
prop.table(table(LCS$性别))

R笔记1

 

 

#列联表
table(LCS$借款类型,LCS$性别)
#1:按行百分比,2:按列百分比
prop.table(table(LCS$借款类型,LCS$性别),1)*100
prop.table(table(LCS$借款类型,LCS$性别),2)*100

R笔记1

 

 

################

#第二章 表·图
# 所有的图都有以下参数
# 主标题main = NULL, 副标题sub = NULL, X轴标题xlab = NULL, Y轴标题ylab = NULL,

 

#柱状图
barplot(table(LCS$性别),horiz=T)# horiz 默认FALSE,表示柱子垂直,TRUE表示柱子水平

R笔记1


barplot(table(LCS$借款金额,LCS$性别))

R笔记1
barplot(table(LCS$借款金额,LCS$性别),horiz=T)

R笔记1

 

#饼图
pie(table(LCS$性别))

R笔记1

 

 

 

 

#直方图
hist(LCS$年龄,freq=F)#freq:T:频数,F:频率

R笔记1

lines(density(LCS$年龄),col='red')#核密度线

R笔记1

 


# 箱线图 ---1.5倍内矩外的点就叫做离群点,可以剔除,在图中就是原点的形式
boxplot(LCS$年龄)

R笔记1
boxplot(LCS$年龄~LCS$性别)

R笔记1

 

 

 

 

#散点图
plot(LCS$借款金额,LCS$历史成功借款金额)

R笔记1

 


#图形美化
c <-c(2,3,4,5,6,7)
d <-c(2,3,4,5,6,7)
a <-c(1,2,3,4,5,6)

opar <- par(no.readonly = T)# 生成一个可以修改的当前图形参数列表
par(mfrow=c(1,2)) #生成1行2列的画布
par(pin=c(2,3)) #图形的宽高
par(lwd=2,cew=1.5) #图形中线的宽度2,点的大小1.5
par(cex.axis=0.75,font.axis=3) #字体大小0.75,字体类型3号
plot(a,c,type = 'b',pcn=19,lty=2,col='blue')#a,c点点图,有点有趋势线,点类型19,线类型2(虚线),线颜色蓝色
plot(a,d,type = 'b',pcn=23,lty=6,col='red',bg='green')#a,d点图,有点有趋势线,点类型23,线类型6,线颜色蓝色,背景颜色绿色
par(opar)#结束该图表参数列表

R笔记1

 

 

#使用ggplot2包实现画图
library(ggplot2)
LCS$newage<-as.factor(LCS$性别)
#散点图
ggplot(LCS,aes(x=借款金额,y=历史成功借款金额))+geom_point(pch=17,size=2,col='red')+geom_smooth(method = 'lm',linetype=2,fullrange=F)+labs(title = '散点图',x='借款金额',y='历史成功借款金额')

R笔记1
ggplot(LCS,aes(x=借款金额,y=历史成功借款金额))+geom_point()+geom_hline(yintercept = 1000000)#水平线

R笔记1
ggplot(LCS,aes(x=借款金额,y=历史成功借款金额))+geom_point()+geom_vline(xintercept = 100000)#水平线

R笔记1
ggplot(LCS,aes(x=借款金额,y=历史成功借款金额))+geom_point()+geom_line()#连接个点

R笔记1

#饼图

dt = data.frame(A = c(2, 7, 4, 10, 1), B = c('B','A','C','D','E'))
ggplot(dt, aes(x = "", y = A, fill = B)) + geom_bar(stat = "identity") + coord_polar(theta = "y")#把柱状图折叠成饼图(极坐标)

R笔记1

 

 

 

#柱状图
ggplot(LCS,aes(x=性别))+geom_bar()

R笔记1

 

#箱线图
ggplot(LCS,aes(y=年龄))+geom_boxplot()#垂直的箱线图

R笔记1
ggplot(LCS,aes(x=年龄))+geom_boxplot()#水平的箱线图

R笔记1
ggplot(LCS,aes(x=年龄,y=性别))+geom_boxplot()#垂直的箱线图

R笔记1


#直方图和核密度曲线
ggplot(LCS,aes(x=年龄))+geom_histogram()#直方图频数分布

R笔记1
ggplot(LCS,aes(x=年龄))+geom_histogram(aes(y=..density..))+geom_density()#直方图频率分布及核密度曲线

R笔记1


#折线图
LCS$new_price<-LCS$借款金额^2/4000

ggplot(LCS,aes(x=借款金额,y=new_price))+geom_point()+geom_line()

R笔记1

 


#第三章 统计数值描述分析

#自带包
summary(LCS)#数值型数据会把最大值,最小值,均值中位数和四分位数给出,分类型变量会给出数量

R笔记1
summary(LC)#NA'S就是缺失值数

 

 

 

 

 

 

# Hmisc包的describe() 没有数量的限制,对因子型变量统计各水平的频次和频率。
library(Hmisc)
describe(LCS)

R笔记1

# pastecs包的stat.desc函数  数量在3-5000条-------不推荐使用
library(pastecs)
LCS_4999<-LCS[1:4999,]
stat.desc(LCS_4999$借款金额,norm=T)

R笔记1

 

# psych包中describe()(mad: 绝对中位差;trimmed:切尾均值,切尾比例为0.1)-------------推荐使用
library(psych)
describe(LCS)

R笔记1
describe(LCS$借款金额)

R笔记1