推荐系统(Remmender System)学习笔记(一)--协同过滤

作为学习记录,完成后总结

论文:A Survey of Collaborative Filtering Techniques

一.CF面临的问题

  • Data Sparsity

        相对于庞大的数据集,用户的行为操作数据相对较少,因此,user-item矩阵就是一个稀疏矩阵,导致当有新用户或项目访问系统时,出现冷启动问题(cold start),由于缺乏必要的行为数据,使得系统给出好的推荐的表现变的很差。为了解决数据稀疏问题,有很多方法可以采用,比如降维(SVD, SCA),还有其他一些CF算法,也可以处理Hybrid CF(content-boosted CF),model-based CF(TAN-ELR  tree augmented naive Bayes optimized by extended logistic regression )等等

  • Scalability

        用户或者项目数据数量规模庞大,在数据逐渐增加的过程中,同时保证推荐系统能够即时给出推荐信息,这就是CF算法的扩展性问题。为了解决此类问题,提出了一些算法,item-based Pearson correlation CF 、clustering CF等等

  • Synonymy

        具有相同或类似的项目,但是却又不同的名字或表述,例如“children file”和 “children movie”。解决此类问题,提出的算法,基于奇异值分解的LSI(Latent Semantic Indexing  潜在语义索引)

  • Gray Sheep

         Gray Sheep涉及到用户对某个项目给出的评价无法保持一致,因此无法从推荐系统中得到有用的推荐。Black sheep指无论什么项目,用户给出的都是否定的评价,这种情况在非机器推荐时也会遇到,因此这种情况是可以接受的。相关算法,combining content-based and CF recommendations

  • Shilling Attacks

        恶意评价。相关算法,user-based CF

  • personal privacy 和 increased noise
        隐私保护也是基于CF的推荐系统所要研究的课题。

        因为用户群体多种多样,导致的噪声问题相关算法(Ensembles of maximum margin matrix factorizations and instance selection techniques、Dempster-Shafer (DS)、theory 、imputation techniques

二.CF分类


推荐系统(Remmender System)学习笔记(一)--协同过滤

  • Memory-based CF(neighborhood-based CF
        推荐系统(Remmender System)学习笔记(一)--协同过滤
        1、Similarity Computation 
            ①Pearson Correlation-Based Similarity

             user-based algorithm

    推荐系统(Remmender System)学习笔记(一)--协同过滤      
               item-based algorithm
推荐系统(Remmender System)学习笔记(一)--协同过滤
            ②Vector Cosine-Based Similarity
推荐系统(Remmender System)学习笔记(一)--协同过滤

        2Prediction and Recommendation Computation

            Weighted Sum of Others’ Ratings(user-based)

推荐系统(Remmender System)学习笔记(一)--协同过滤

            ②Simple Weighted Average (item-based)

推荐系统(Remmender System)学习笔记(一)--协同过滤

            ③Top-N Recommendations (暂时没看完)