机器学习预测评论有用性
literature reviews
Methodology
dataset:294,034 reviewers
除了消费者的文本反馈外,还收集了消费者的社会地位、餐厅类型、评论日期、餐厅的个别评论者的星级等相关信息。此外,还获得了对每个独立审查的有用性投票数,以衡量审查在研究中的有用性
dataprocess
文本预处理过程遵循先前研究的步骤,包括消除非英语字符和单词、单词文本标记、词性标记、替换常见的否定词、单词词干提取和删除低频单词(少于2%)。
Aspect Extraction
在预处理中去除不相关和非文本的内容后,将评论转化为合适的向量。该步骤旨在从获得的评论中识别主要的餐饮方面。潜在的狄利克雷分配(LDA)识别评论中的主体对象。
Sentiment Detection
情感得分:对每个评论给出一个二元组,For instances, good is scored {3, 1}, and {1, 4} for the bad .
where S = {s1, s2, ..., sl} denotes the sentiment score of each feature associated with aspect tj
Classifier Set Up
(1)NB+LR;(2) NB+SVM;(3)SVM+FDO
result
这三个城市的餐厅顾客评分以五星(53.62%)为主,其次是四星(22.78%)和三星(9.94%)。在考据中,69.02%的人没有得到一票赞成,而15.45%的考据只有一票赞成。只有大约1%的文本评论的支持票高于5票
Model Comparison
良好的口味和食物质量更有可能产生正面的在线评论。然而,本研究强调,顾客倾向于表达对价值的负面情绪,这与之前的研究结果不同,该研究表明,餐厅氛围的积极情绪得分最低[78],顾客倾向于抱怨服务质量[79]。潜在的原因可能是这项研究从美国三个生活成本相对较高的大城市中提取了餐馆评论。
贡献:提出一种基于aspect的信息度;融合了多种算法
缺点:只选了三个城市,有样本偏差;做了三分类预测,但是分类标准没有给出(为何5votes为阈值);对不均衡样本的处理没有表述清楚;
最后才看到是MDPI的,还以为HOSPITALITY MANAGEMENT。。。凑合看吧。。。