博客推荐系统

目的:用户进入博客以后,会在底部推荐相似文章

技术:

目的 技术手段
html转文本 bs4.BeautifulSoup(html, “html.parser”).get_text()
中文分词 jieba.cut(text, use_paddle=True)
构建词频表 pandas
SVD、稀疏矩阵 numpy

实现

demo的截图:
博客推荐系统博客推荐系统
博客推荐系统
博客推荐系统
上述代码输出了推荐的文章名称,相似度,奇异矩阵和原矩阵的几何距离

在Django中的demo

  • 首先要导入django环境
    博客推荐系统
  • 其次是测试一下上面的API,首先是分词
    博客推荐系统博客推荐系统
    我找了两篇文章,然后试了试,发现性能不够乐观,主要消耗的时间在jieba的中文分词上,占了88%
  • 然后是构造奇异矩阵
    博客推荐系统
    博客推荐系统
    由上可以看出,矩阵的SVD分解用的时间也非常长,究其原因是因为有一个13064大小的方阵进行了特征值分解。这里我可以优化,看后续