医学案例统计分析与SAS应用（笔记）一

一，样本含量估计 & proc power：

首先确定以下因素：

1）第一类错误概率 α 假阳性错误，α 设定越小，样本量越大，一般取0.05.

2）第二类错误概率 β 假阴性错误， β 设定越小，或把握度1- β 设定的越高，样本量越大，一般 β 取0.1、0.2，把握度取0.9、0.8

3）其他要素

二，常用试验设计方法 & proc plan：

1）完全随机设计

2）配对设计及随机区组设计

3）析因设计

#####################################

完全随机设计如下例所示：

例如：研究A药物和B药物对糖尿病的疗效，以空腹血糖测量值和空腹血糖疗效作为主要疗效指标，希望有80%的把握发现两种药物的真实差异。

Step1: 估算样本量：

空腹血糖测量值为因素推算样本量，研究者通过以往研究获得两组空腹血糖均值和标准差分别是：8.06±1.82 和 7.23±1.52，计算出合并方差2.81，标准差为1.68：

proc power;
twosamplemeans
groupmeans=8.06|7.23
stddev=1.68
power=0.8
ntotal=.;
run;
医学案例统计分析与SAS应用（笔记）一

空腹血糖疗效作为因素，需要给出第一类和第二类错误率，并且通过以往的预实验了解两组的预期有效率。已知两组的有效率分别是 71% 和 83%

proc power;
twosamplefreq
groupproportions=(0.71,0.83)
power=0.8
ntotal=.;
run;

医学案例统计分析与SAS应用（笔记）一

两个因素估算样本量分别是132 和 384，取最大值。

Step2：随机分组：

proc plan seed=200709; /* seed 参数可空缺，用于产生随机数，相同的seed 产生相同的随机数，为了复现产生的随机数，建议设置seed 值（当时时间）*/
factors rand =384 random; /*因素名称： rand，样本量：384，抽样方式：random*/
output out=outa;
data outb;
set outa; /* 常规用法，将上一个数据集outa 导入outb */
if rand <=192 then group='A';
ELSE group='B';
num=_N_; /* sas 自动变量，观测值序号*/
PROC PRINT;
RUN;

医学案例统计分析与SAS应用（笔记）一

####################################################

随机区组设计如下例：

某研究所研究三种饲料对小白鼠的体重影响，希望有80%的把握度发现三种饲料对增重的真实影响。

设计方案：单因素--饲料三个水平---三种饲料，可以完全随机分组或者随机区组设计。若想要结果可靠，饲料喂养前小白鼠的体重应该相同或者相近，建议：随机区组设计

Step1: 估算样本量

结果指标：体重，连续变量。对多组连续变量的比较，估计样本量之前，需要确定第一类和第二类错误概率，并根据预实验和以往的研究估算每组的均值和标准差。已知：三种饲料的增重均值为61.4、72.9、68.7，标准差为：10.7、12.3、11.8，合并标准差为11.6

proc power;
onewayanova /* 单因素方差分析进行样本量估计*/
test=overall /* 做三组总体比较而不是两两比较*/
groupmeans=61.4|72.2|68.7
stddv=11.6
power=0.8
ntotal=.;
run;

医学案例统计分析与SAS应用（笔记）一

Step2：随机分组：

改项目选用随机区组设计，思路在于：先将没三个体重相同或相近的小白鼠配成一组，共有：69/3=23区组，每个区组的小白鼠按照某种约定顺序编号1~3，组后 proc plan 进行区组分配

proc plan;
factors block=23 ordered rank=3 random;

/* block 区组23， block 排序方式：ordered 顺序排序， rank：每一份block内小白鼠数量3，小白鼠排序方式：random 随机 */
run;

医学案例统计分析与SAS应用（笔记）一

####################################################

析因设计的随机分组：

某机构研究A药物和B药物对幽门螺杆菌的抑制作用，同时希望了解两种药物的联合作用效果。

设计思路：两个因素，交叉组合成4组，A0+B0,A1+B0,A0+B1,A1+B1，如果因素间可能存在交互效应，最好采用：析因设计,析因设计主要思路：一旦按照交叉组合分成4组后，如何随机分组与完全随机设计是相同的，可以看成是有四个组的完全随机分组，只是析因设计需要每个组的样本量相同。

Step1: 估算样本量：

以幽门螺杆菌的清除率为分类变量。proc power 目前尚无关于多组率比较的样本含量计算程序（？？），因此可根据公式计算出样本含量：

医学案例统计分析与SAS应用（笔记）一

α=0.05，β=0.1，v=4-1=3, 查λ界值表λ为14.17，根据以往研究或预实验，最大率和最小率分别为0.69和0.18，求得每组需要样本量25.

Step 2: 随机分组：

data outb;
set outa;
if rand <=25 then group='空白组';
else if rand <=25 then group='A药物';
else if rand <=25 then group='B药物';
ELSE group='A+B药物'；
num=_N_;
PROC PRINT;
RUN;

医学案例统计分析与SAS应用（笔记）一

###################################################################

关系型研究的样本含量估计：

某医生研究空腹血糖和糖化血蛋白的关系，考虑年龄、身高、体重可能影响二者的关系。希望能有80%的把握度发现二者的真实关系。

设计思路：研究变量之间的关系，研究指标为连续型变量，最常见的分析方法是相关和回归。如果两个变量有明确的因果关系，可以用回归分析；如果两个变量无主次之分，可以用相关分析。在样本含量估计时，只要确定研究因素和校正因素，相关和回归所求得的样本含量估计值是一致。

研究者通过研究资料获得两个变量的偏相关系数，即矫正其他混杂因素后的纯相关系数为0.4

以空腹血糖作为因变量，观察糖化血蛋白对空腹血糖的影响，同时矫正年龄、身高、体重的混杂，则可采用回归分析

Step1, 样本量估算：

使用回归分析估算

proc power;
multreg /* 选择的方法是回归分析估计样本量*/
partialcorr=0.4 /* 两个变量的偏相关系数 0.4 */
nfullpredictors =4 /*4个因素，包括自变量和混杂因素*/
ntestpredictors=1 /*1个主要变量，其他的为矫正因素*/
power=0.8
ntotal=.l;
plot x=power min=0.2 max=0.9; /*以power为x轴，样本含量为y轴绘图*/
run;
医学案例统计分析与SAS应用（笔记）一

医学案例统计分析与SAS应用（笔记）一

使用相关分析估算:

proc power;
onecorr /*表明对相关分析进行样本含量估计*/
corr=0.4 /* 两个变量的偏相关系数 0.4 */
npartialvars=3 /*3个矫正因素 */
power=0.8
ntotal=.;
run;

医学案例统计分析与SAS应用（笔记）一

医学案例统计分析与SAS应用（笔记）一

相关推荐