级别大小是否影响回归模型的结果?

级别大小是否影响回归模型的结果?

问题描述:

我正在拟合具有两个独立分类变量和一个数字响应变量的回归模型。我在变量类别A和B中有两个级别;变化的颜色,红色,橙色和黄色三个级别。但这些级别的大小差别很大。我在此处打印出一个示例:级别大小是否影响回归模型的结果?

Category Color Price 
    A R 12 
    A R 43 
    A Y 32 
    A Y 31 
    A R 21 
    A Y 56 
    A Y 34 
    A Y 23 
    A R 12 
    A R 6 
    A R 43 
    B Y 32 
    B R 12 
    B R 26 
    B O 15 
    B R 27 
    B R 14 
    B O 13 
    B R 37 
    B O 15 
    B O 47 
    B R 25 

A类没有橙色,B类只有1个黄色。在回归模型中得到类别和颜色之间多少价格差异的结论,这样很好吗?

如果您没有任何数字特征变量,那么建立回归模型没有多大意义。你可以在每个类别中使用这些手段。例如,使用熊猫:

pd.pivot_table(df,columns=['Category','Color'],aggfunc=np.mean) 

     Category Color 
Price A   R  22.833333 
       Y  35.200000 
     B   O  22.500000 
       R  23.500000 
       Y  32.000000 
+0

谢谢你的评论。我有数字变量?我只是举一个例子来讨论关卡的大小。实际上,我用其他变量进行回归模型。如果我的回归模型中的项目的年龄是多少,您能否给我答案? –