song2vec实际上是item2vec，是word2vec在推荐场景中的应用。就是用用户兴趣序列，去模拟自然语言处理中有前后逻辑关系的句子。

用户的兴趣序列

是根据用户行为来构建的，比如在音乐场景下，有不同的行为，播放，点赞，收藏，分享等。给不同的行为不同的权重。取一段时间内的行为来构建序列，比如长期兴趣序列和短期兴趣序列。最终得到的是一个用户兴趣偏好向量，按照偏好度排序的。

word2vec的数学原理。

层次softMax

哈夫曼树。（大话数据结构，小象学院）

哈夫曼树是最小的带权路径二叉树。

建树过程：按照词频从小到大排序，然后先选最小的两个，小的为左节点，大的为右节点，建树，然后往上递归。

song2vec

损失函数是从根结点到叶子节点的几个2分类损失函数相乘。

song2vec

item2vec不能处理物品冷启动问题，但是可以加一些策略来拯救一下，比如说用同一分类下有embedding的物品的enbedding均值作为新物品的embedding

优化点：序列截断，如果偏差过大的话，就截断成2个序列。

优化点：graph embedding，图随机游走（阿里的一篇论文）

抖音赛中是用时序序列，音乐上是用集合序列。

用skip gram方法来训练，因为音乐场景长尾ID比较多。对生僻字的训练效果好。