数据挖掘——逻辑回归
逻辑回归
研究人员对使用雌激素与子宫内膜癌发病间的关系进行了1:1配对的病例对照研究。病例与对照按年龄相近、婚姻状况相同、生活的社区相同进行了配对。收集了年龄、雌激素药使用、胆囊病史、高血压和非雌激素药使用的数据。变量定义及具体数据如下:
match:配比组
case:case=1病例;case=0对照(未发病)
est:est=1使用过雌激素;est=0未使用雌激素;
gall:gall=1有胆囊病史;gall=0无胆囊病史;
hyper:hyper=1有高血压;hyper=0无高血压;
nonest:nonest=1使用过非雌激素;nonest=0未使用过非雌激素;
Match |
Case |
Est |
Gall |
Hyper |
Nonest |
1 |
1 |
1 |
1 |
0 |
1 |
1 |
0 |
0 |
1 |
0 |
0 |
2 |
1 |
1 |
0 |
1 |
1 |
2 |
0 |
0 |
0 |
0 |
1 |
3 |
1 |
1 |
1 |
0 |
1 |
3 |
0 |
1 |
0 |
1 |
1 |
4 |
1 |
1 |
0 |
0 |
0 |
4 |
0 |
1 |
0 |
1 |
1 |
5 |
1 |
1 |
0 |
1 |
1 |
5 |
0 |
0 |
0 |
0 |
0 |
6 |
1 |
1 |
1 |
0 |
1 |
6 |
0 |
0 |
0 |
0 |
0 |
7 |
1 |
1 |
0 |
0 |
1 |
7 |
0 |
0 |
0 |
0 |
0 |
8 |
1 |
1 |
1 |
1 |
1 |
8 |
0 |
0 |
0 |
1 |
1 |
9 |
1 |
1 |
0 |
0 |
1 |
9 |
0 |
1 |
0 |
0 |
1 |
10 |
1 |
0 |
0 |
0 |
1 |
10 |
0 |
0 |
0 |
0 |
1 |
11 |
1 |
1 |
0 |
1 |
1 |
11 |
0 |
1 |
0 |
1 |
1 |
12 |
1 |
0 |
0 |
0 |
1 |
12 |
0 |
0 |
0 |
1 |
1 |
13 |
1 |
1 |
0 |
1 |
1 |
13 |
0 |
0 |
0 |
0 |
0 |
14 |
1 |
1 |
0 |
0 |
1 |
14 |
0 |
0 |
0 |
0 |
0 |
15 |
1 |
1 |
0 |
1 |
1 |
15 |
0 |
1 |
0 |
0 |
1 |
16 |
1 |
1 |
0 |
0 |
1 |
16 |
0 |
1 |
0 |
1 |
1 |
17 |
1 |
1 |
0 |
0 |
1 |
17 |
0 |
0 |
0 |
0 |
0 |
18 |
1 |
0 |
1 |
0 |
1 |
18 |
0 |
0 |
0 |
1 |
0 |
19 |
1 |
1 |
1 |
0 |
1 |
19 |
0 |
1 |
1 |
0 |
0 |
20 |
1 |
1 |
0 |
0 |
0 |
20 |
0 |
1 |
0 |
1 |
1 |
(1) 调用逻辑回归函数或实现求解L2逻辑回归分析的梯度下降算法,求出最优的逻辑回归模型;
(2) 尝试找出对影响子宫内膜癌发病的最直接的因素;
(3) 编程实现求解L2正则化逻辑回归分析的梯度下降算法,并求出正则化平衡系数为1时的最优正则化逻辑回归模型(加分题)。
答:
(1)
假设函数 (x) =
代价函数 J() = -
[
log
+(1-
)log(1-
)],
通过梯度下降的方法最小化 J(), 即
=
-
,
最终求得 = [-2.6653, 2.2190, 1.0641, -1.7730, 2.2363]。
(2)
影响子宫内膜癌发病的最直接的因素为是否使用过非雌激素即Nonest.
(3)
求出来的回归模型为,
其中求得的为[-0.1246, 0.1045, 0.0471, -0.0259, 0.0813]。
部分代码如图:其中,这里迭代次数选取20000,学习率取0.01.