数据挖掘——逻辑回归

逻辑回归

研究人员对使用雌激素与子宫内膜癌发病间的关系进行了1:1配对的病例对照研究。病例与对照按年龄相近、婚姻状况相同、生活的社区相同进行了配对。收集了年龄、雌激素药使用、胆囊病史、高血压和非雌激素药使用的数据。变量定义及具体数据如下:

match:配比组

casecase=1病例;case=0对照(未发病

estest=1使用过雌激素;est=0未使用雌激素

gallgall=1有胆囊病史;gall=0无胆囊病史

hyper:hyper=1有高血压;hyper=0无高血压

nonest:nonest=1使用过非雌激素;nonest=0未使用过非雌激素

Match

Case

Est

Gall

Hyper

Nonest

1

1

1

1

0

1

1

0

0

1

0

0

2

1

1

0

1

1

2

0

0

0

0

1

3

1

1

1

0

1

3

0

1

0

1

1

4

1

1

0

0

0

4

0

1

0

1

1

5

1

1

0

1

1

5

0

0

0

0

0

6

1

1

1

0

1

6

0

0

0

0

0

7

1

1

0

0

1

7

0

0

0

0

0

8

1

1

1

1

1

8

0

0

0

1

1

9

1

1

0

0

1

9

0

1

0

0

1

10

1

0

0

0

1

10

0

0

0

0

1

11

1

1

0

1

1

11

0

1

0

1

1

12

1

0

0

0

1

12

0

0

0

1

1

13

1

1

0

1

1

13

0

0

0

0

0

14

1

1

0

0

1

14

0

0

0

0

0

15

1

1

0

1

1

15

0

1

0

0

1

16

1

1

0

0

1

16

0

1

0

1

1

17

1

1

0

0

1

17

0

0

0

0

0

18

1

0

1

0

1

18

0

0

0

1

0

19

1

1

1

0

1

19

0

1

1

0

0

20

1

1

0

0

0

20

0

1

0

1

1

(1) 调用逻辑回归函数或实现求解L2逻辑回归分析的梯度下降算法,求出最优的逻辑回归模型;

(2) 尝试找出对影响子宫内膜癌发病的最直接的因素;

(3) 编程实现求解L2正则化逻辑回归分析的梯度下降算法,并求出正则化平衡系数1时的最优正则化逻辑回归模型(加分题)。

答:

(1)

假设函数 数据挖掘——逻辑回归(x) = 数据挖掘——逻辑回归

代价函数 J(数据挖掘——逻辑回归) = -数据挖掘——逻辑回归[数据挖掘——逻辑回归log数据挖掘——逻辑回归+(1-数据挖掘——逻辑回归)log(1-数据挖掘——逻辑回归)],

通过梯度下降的方法最小化 J(数据挖掘——逻辑回归), 数据挖掘——逻辑回归=数据挖掘——逻辑回归-数据挖掘——逻辑回归数据挖掘——逻辑回归

最终求得数据挖掘——逻辑回归 = [-2.6653, 2.2190, 1.0641, -1.7730, 2.2363]

数据挖掘——逻辑回归

(2)

影响子宫内膜癌发病的最直接的因素为是否使用过非雌激素即Nonest.

(3)

求出来的回归模型为数据挖掘——逻辑回归,

其中求得的数据挖掘——逻辑回归为[-0.1246, 0.1045, 0.0471, -0.0259, 0.0813]。

部分代码如图:其中,这里迭代次数选取20000,学习率数据挖掘——逻辑回归取0.01.

数据挖掘——逻辑回归

数据挖掘——逻辑回归