博客推荐系统
目的:用户进入博客以后,会在底部推荐相似文章
技术:
目的 | 技术手段 |
---|---|
html转文本 | bs4.BeautifulSoup(html, “html.parser”).get_text() |
中文分词 | jieba.cut(text, use_paddle=True) |
构建词频表 | pandas |
SVD、稀疏矩阵 | numpy |
实现
demo的截图:
上述代码输出了推荐的文章名称,相似度,奇异矩阵和原矩阵的几何距离
在Django中的demo
- 首先要导入django环境
- 其次是测试一下上面的API,首先是分词
我找了两篇文章,然后试了试,发现性能不够乐观,主要消耗的时间在jieba的中文分词上,占了88% - 然后是构造奇异矩阵
由上可以看出,矩阵的SVD分解用的时间也非常长,究其原因是因为有一个13064大小的方阵进行了特征值分解。这里我可以优化,看后续