推荐系统-task02-协同过滤
1. 协同过滤:
基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品
- 基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品
- 基于物品的协同过滤算法(ItemCF): 给用户推荐和他之前喜欢的物品相似的物品
2. 相似性度量方法
(1)杰卡德(Jaccard)相似系数
两个用户
u
u
u和
v
v
v交互商品交集的数量占这两个用户交互商品并集的数量的比例:
s
i
m
u
v
=
∣
N
(
u
)
∩
N
(
v
)
∣
∣
N
(
u
)
∣
∪
∣
N
(
v
)
∣
sim_{uv}=\frac{|N(u) \cap N(v)|}{\sqrt{|N(u)| \cup|N(v)|}}
simuv=∣N(u)∣∪∣N(v)∣
∣N(u)∩N(v)∣
(2)余弦相似度
矩阵的每一行表示一个用户对所有商品的交互情况,有交互的商品值为1没有交互的商品值为0,矩阵的列表示所有商品。若用户和商品数量分别为
m
,
n
m,n
m,n的话,交互矩阵
A
A
A就是一个
m
m
m行
n
n
n列的矩阵。
s
i
m
u
v
=
c
o
s
(
u
,
v
)
=
u
⋅
v
∣
u
∣
⋅
∣
v
∣
sim_{uv} = cos(u,v) =\frac{u\cdot v}{|u|\cdot |v|}
simuv=cos(u,v)=∣u∣⋅∣v∣u⋅v
(3)皮尔逊相关系数
皮尔逊相关系数通过使用用户的平均分对各独立评分进行修正,减小了用户评分偏置的影响。
s
i
m
(
u
,
v
)
=
∑
i
∈
I
(
r
u
i
−
r
ˉ
u
)
(
r
v
i
−
r
ˉ
v
)
∑
i
∈
I
(
r
u
i
−
r
ˉ
u
)
2
∑
i
∈
I
(
r
v
i
−
r
ˉ
v
)
2
sim(u,v)=\frac{\sum_{i\in I}(r_{ui}-\bar r_u)(r_{vi}-\bar r_v)}{\sqrt{\sum_{i\in I }(r_{ui}-\bar r_u)^2}\sqrt{\sum_{i\in I }(r_{vi}-\bar r_v)^2}}
sim(u,v)=∑i∈I(rui−rˉu)2
∑i∈I(rvi−rˉv)2
∑i∈I(rui−rˉu)(rvi−rˉv)
其中
r
u
i
,
r
v
i
r_{ui},r_{vi}
rui,rvi分别表示用户
u
u
u和用户
v
v
v对商品
i
i
i是否有交互(或者具体的评分值),
r
ˉ
u
,
r
ˉ
v
\bar r_u, \bar r_v
rˉu,rˉv分别表示用户
u
u
u和用户
v
v
v交互的所有商品交互数量或者具体评分的平均值。
3.基于用户的协同过滤
UserCF算法主要包括两个步骤:
- 找到和目标用户兴趣相似的集合
- 找到这个集合中的用户喜欢的, 且目标用户没有听说过的物品推荐给目标用户。
这里常用的方式之一是利用用户相似度和相似用户的评价加权平均获得用户的评价预测, 用下面式子表示:
R u , p = ∑ s ∈ S ( w u , s ⋅ R s , p ) ∑ s ∈ S w u , s R_{\mathrm{u}, \mathrm{p}}=\frac{\sum_{\mathrm{s} \in S}\left(w_{\mathrm{u}, \mathrm{s}} \cdot R_{\mathrm{s}, \mathrm{p}}\right)}{\sum_{\mathrm{s} \in S} w_{\mathrm{u}, \mathrm{s}}} Ru,p=∑s∈Swu,s∑s∈S(wu,s⋅Rs,p) 这个式子里面, 权重 w u , s w_{u,s} wu,s是用户 u u u和用户 s s s的相似度, R s , p R_{s,p} Rs,p是用户 s s s对物品 p p p的评分。
(由于电脑坏了,代码部分无法实践和展现,后期补上)