推荐系统(Remmender System)学习笔记(一)--协同过滤
作为学习记录,完成后总结
论文:A Survey of Collaborative Filtering Techniques
一.CF面临的问题
- Data Sparsity
相对于庞大的数据集,用户的行为操作数据相对较少,因此,user-item矩阵就是一个稀疏矩阵,导致当有新用户或项目访问系统时,出现冷启动问题(cold start),由于缺乏必要的行为数据,使得系统给出好的推荐的表现变的很差。为了解决数据稀疏问题,有很多方法可以采用,比如降维(SVD, SCA),还有其他一些CF算法,也可以处理Hybrid CF(content-boosted CF),model-based CF(TAN-ELR tree augmented naive Bayes optimized by extended logistic regression )等等
- Scalability
用户或者项目数据数量规模庞大,在数据逐渐增加的过程中,同时保证推荐系统能够即时给出推荐信息,这就是CF算法的扩展性问题。为了解决此类问题,提出了一些算法,item-based Pearson correlation CF 、clustering CF等等
- Synonymy
具有相同或类似的项目,但是却又不同的名字或表述,例如“children file”和 “children movie”。解决此类问题,提出的算法,基于奇异值分解的LSI(Latent Semantic Indexing 潜在语义索引)
- Gray Sheep
Gray Sheep涉及到用户对某个项目给出的评价无法保持一致,因此无法从推荐系统中得到有用的推荐。Black sheep指无论什么项目,用户给出的都是否定的评价,这种情况在非机器推荐时也会遇到,因此这种情况是可以接受的。相关算法,combining content-based and CF recommendations
- Shilling Attacks
恶意评价。相关算法,user-based CF
- personal privacy 和 increased noise
因为用户群体多种多样,导致的噪声问题相关算法(Ensembles of maximum margin matrix factorizations and instance selection techniques、Dempster-Shafer (DS)、theory 、imputation techniques)
二.CF分类
- Memory-based CF(neighborhood-based CF )
1、Similarity Computation
①Pearson Correlation-Based Similarity
user-based algorithm
2、Prediction and Recommendation Computation
②Simple Weighted Average (item-based)