推荐系统学习笔记——十二、结巴分词用于内容相似推荐

十二、结巴分词用于内容相似推荐

计算物品最相似的其他物品，直接用于I2I相似推荐，或者U2I2I推荐

以文章为例，进行内容相似推荐，一般需要以下几个步骤：

内容获取

中文分词：提取关键词

Doc2Vec：平均、加权平均

得到关键词和权重之后，计算文章的数字向量，两种方法：平均、加权平均
- 平均：[1,0,0,1,0]
- 加权平均：[0.8, 0.6, 0, 0.3, 0.5]
这样就把文章的多个关键词和权重变成一个向量，这是多个词的组合得到的一个结果
有缺点：只能实现精确匹配。原来的文章中有“推荐系统”关键词，那目标文章中也有“推荐系统”才能被匹配到

Word2vec：语意扩展

TopN相似近邻搜索

得到每篇文章的向量之后，进行相似近邻搜索，输入一篇文章，计算相似得到TopN。方法有两种：scipy余弦相似度、LSH局部敏感哈希

scipy余弦相似度，直接算出相似度，
- scipy.spatial.distance.cosine(u,v)
  - u,v都是一维数字数组，
  - scipy库是C实现的，效果比python实现效果好。
  - 有问题：需要自己实现每篇文章和其他文章的相似度，再排序找出TopN
LSH局部敏感哈希
- spark官网——Programming Guides ——MLlib(Machine Learning)进入spark的机器学习库，点击Extracting，transforming and selecting features进入提取、转换和选择特征，找到Locality Sensitive Hashing局部敏感哈希
- 局部敏感哈希，一种重要的哈希算法，一般用于聚类、相似近邻搜索
- 把一万篇文章，分到多个分桶，再分桶中计算相似

redis缓存

把相似近邻搜索的TopN文章，存储在redis中，key是文章ID，value是TopN文章ID的list

Flask/Java Web服务

根据redis中存储的文章ID列表，查询文章并返回文章列表，实现内容相似推荐