豆瓣一连,500热评真得具有代表性吗?

上次写了一篇关于《北灵少年志之大主宰》的短评分析链接1,用热评500是在无法取得完整短评下不得已为之的结果,现在咱们来重申一个问题,豆娘放出来的短评top500,真的是能代表全体的意见领袖吗?
考虑用统计模型进行验证。

  1. 豆瓣数据爬虫
    首先是样本影视名录,选取热榜300条(实际用到的50+),Python爬虫可参考链接2,整理后如图:
    豆瓣一连,500热评真得具有代表性吗?
    然后爬取每篇文章的豆瓣短评,超过500的按500爬,不足500的爬全部。得到数据24594条,涉及影视作品54部,虽然不多,但是建模够用,被豆娘锁账号锁到害怕。
    豆瓣一连,500热评真得具有代表性吗?
  2. 数据预处理
    原数据有很多冗余信息,不爬白不爬,说不定以后有用呢。但在建模之前需要整理,基于500热评的评分1到5星(很差到力荐)的比例以及基于整体评价的豆瓣评分如下:
    豆瓣一连,500热评真得具有代表性吗?
  3. 数据建模
    现在目的比较明确了,我们希望建立起500热评与整体评分的数量关系,具体点,就是1到5星(很差到力荐)的比例与豆瓣评分的关系。
    分别考虑多元线性回归决策树回归建模

多元回归

豆瓣一连,500热评真得具有代表性吗?
豆瓣评分=10-7.146X很差比例-2.698X较差比例-2.497X还行-2.0578X推荐
从整体显著性看,F统计量P值非常小,模型整体显著;从R平方来看,可以用这四个自变量解释豆瓣评分70.8%的变异性。这些都说明热评的代表性不是特别高但也还可以。另外,从自变量显著性来看,很差和还行最为显著,一部作品的质量评价,主要是取决于1星(黑)和3星(路人)的比例,如果路人缘不错,极端负面评论较少,基本可以认为是不错的作品。

决策树回归

豆瓣一连,500热评真得具有代表性吗?

豆瓣一连,500热评真得具有代表性吗?
顺着决策树规则下来,可以很容易的通过热评中个评价的比例来推定整体豆瓣评分,大多数规则 是显著的,比如仅知道很差占比28%以上,可估计评分为5.8,反之8.6,如果再加上其它条件,如力荐比例低于39%,那就估7.9分,反之9分。

  1. 结果分析与比较
    首先,两个模型都很显著,说明利用短评信息(各星比例)可以很好的刻画整体评价状况(豆瓣评分),短评top500具有不错的代表性;
    其次,多元回归给出了表达式,决策树给出了具体规则,都可用于预测;
    最后,哪个模型效果更好,用离差平方和来度量,多元线性回归:33.41301;决策树回归:12.62251,显然决策树要好一些。