级别大小是否影响回归模型的结果?
问题描述:
我正在拟合具有两个独立分类变量和一个数字响应变量的回归模型。我在变量类别A和B中有两个级别;变化的颜色,红色,橙色和黄色三个级别。但这些级别的大小差别很大。我在此处打印出一个示例:级别大小是否影响回归模型的结果?
Category Color Price
A R 12
A R 43
A Y 32
A Y 31
A R 21
A Y 56
A Y 34
A Y 23
A R 12
A R 6
A R 43
B Y 32
B R 12
B R 26
B O 15
B R 27
B R 14
B O 13
B R 37
B O 15
B O 47
B R 25
A类没有橙色,B类只有1个黄色。在回归模型中得到类别和颜色之间多少价格差异的结论,这样很好吗?
答
如果您没有任何数字特征变量,那么建立回归模型没有多大意义。你可以在每个类别中使用这些手段。例如,使用熊猫:
pd.pivot_table(df,columns=['Category','Color'],aggfunc=np.mean)
Category Color
Price A R 22.833333
Y 35.200000
B O 22.500000
R 23.500000
Y 32.000000
谢谢你的评论。我有数字变量?我只是举一个例子来讨论关卡的大小。实际上,我用其他变量进行回归模型。如果我的回归模型中的项目的年龄是多少,您能否给我答案? –