作为学习记录，完成后总结

论文：A Survey of Collaborative Filtering Techniques

一.CF面临的问题

Data Sparsity

相对于庞大的数据集，用户的行为操作数据相对较少，因此，user-item矩阵就是一个稀疏矩阵，导致当有新用户或项目访问系统时，出现冷启动问题（cold start），由于缺乏必要的行为数据，使得系统给出好的推荐的表现变的很差。为了解决数据稀疏问题，有很多方法可以采用，比如降维（SVD， SCA），还有其他一些CF算法，也可以处理Hybrid CF（content-boosted CF），model-based CF（TAN-ELR tree augmented naive Bayes optimized by extended logistic regression ）等等

Scalability

用户或者项目数据数量规模庞大，在数据逐渐增加的过程中，同时保证推荐系统能够即时给出推荐信息，这就是CF算法的扩展性问题。为了解决此类问题，提出了一些算法，item-based Pearson correlation CF 、clustering CF等等

Synonymy

具有相同或类似的项目，但是却又不同的名字或表述，例如“children file”和 “children movie”。解决此类问题，提出的算法，基于奇异值分解的LSI（Latent Semantic Indexing 潜在语义索引）

Gray Sheep

Gray Sheep涉及到用户对某个项目给出的评价无法保持一致，因此无法从推荐系统中得到有用的推荐。Black sheep指无论什么项目，用户给出的都是否定的评价，这种情况在非机器推荐时也会遇到，因此这种情况是可以接受的。相关算法，combining content-based and CF recommendations

Shilling Attacks

恶意评价。相关算法，user-based CF

personal privacy 和 increased noise

隐私保护也是基于CF的推荐系统所要研究的课题。

因为用户群体多种多样，导致的噪声问题相关算法（Ensembles of maximum margin matrix factorizations and instance selection techniques、Dempster-Shafer (DS)、theory 、imputation techniques）