song2vec
song2vec实际上是item2vec,是word2vec在推荐场景中的应用。就是用用户兴趣序列,去模拟自然语言处理中有前后逻辑关系的句子。
用户的兴趣序列
是根据用户行为来构建的,比如在音乐场景下,有不同的行为,播放,点赞,收藏,分享等。给不同的行为不同的权重。取一段时间内的行为来构建序列,比如长期兴趣序列和短期兴趣序列。最终得到的是一个用户兴趣偏好向量,按照偏好度排序的。
word2vec的数学原理。
http://blog.****.net/itplus/article/details/37969979
层次softMax
哈夫曼树。(大话数据结构,小象学院)
哈夫曼树是最小的带权路径二叉树。
建树过程:按照词频从小到大排序,然后先选最小的两个,小的为左节点,大的为右节点,建树,然后往上递归。
损失函数是 从根结点到叶子节点的几个2分类损失函数相乘。
负采样
item2vec不能处理物品冷启动问题,但是可以加一些策略来拯救一下,比如说用同一分类下有embedding的物品的enbedding均值作为新物品的embedding
优化点:序列截断,如果偏差过大的话,就截断成2个序列。
优化点:graph embedding,图随机游走(阿里的一篇论文)
item2vec中两种不同的构建样本的方式
https://blog.****.net/bitcarmanlee/article/details/105374758
抖音赛中是用时序序列,音乐上是用集合序列。
cbow 与 skip-gram的比较
https://zhuanlan.zhihu.com/p/37477611
用skip gram方法来训练,因为音乐场景长尾ID比较多。对生僻字的训练效果好。