《内容算法:把内容变成价值的效率系统》观后总结

一、系统的架构

    1.搜索引擎系统的架构:

        通常分为两部分:

        一部分是离线系统。爬虫对原始网页的内容进行爬取,然后对爬取到的内容进行归类,贴标签等。最终把他们储存在服务器中。

        一部分是在线系统。当用户输入关键词的时候,系统首页对关键词进行拓词和修正,然后从数据库中进行提取,提取出来以后根据不同的标准对内容进行评分,来决定内容的排序。

        最终根据用户点击行为对内容施加不同的权重来决定新的排序。

        《内容算法:把内容变成价值的效率系统》观后总结

    2.推送系统的架构:

        通常也分为两部分:

        离线系统:通过用户提交、协议同步、数据库导入等多种方式获取待推荐的内容(对内容平台来说,内容的结构化要远胜于推荐引擎爬虫抓取的内容),依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理(如话题、分类、实量词等),最终把处理好的数据储存在服务器中。

        在线系统:用户行为画像--内容提取--内容排序--内容呈现--用户行为--优化迭代(完善用户行为画像--优化信息召回--优化用户使用体验)。

《内容算法:把内容变成价值的效率系统》观后总结

    推荐和搜索最大的差异在于用户表意是否明确。因此,推荐系统需要尽可能地完善用户的长期画像(对哪些分类、实体词、话题感兴趣)和短期画像(时间、地点信息),这样才能够在用户每一次请求是更好的揣摩用户当下的意图,一进行后续的内容匹配。

 

二、推荐的起点:断物识人

 

    1.断物:贴标签

        标签的两种典型产出方式:专家系统产出(PGC)和普通网友产出(UGC)。

        需要注意:

            1.系统产出在实际应用时应当合理的展示机器的逻辑给客户,取得客户的理解和认同。

            2.网友产出需要对数据进行必要的清洗。比如:rock(摇滚)和摇滚表意相同的标签进行清洗。

 

    2.识人:通过贴标签的方式完善用户画像

        用户画像有三类主要应用场景:1.精确广告营销;2.行业研究;3.产品效率优化。

        用户画像数据划分:

            1.静态数据:用户独立于产品场景之外的属性,如性别、学历、婚育状况、常住地址、教育程度等。

            2.动态数据:用户在产品场景中产生的显示或隐式行为。显示行为包括点赞、收藏、评论、分享、关注等;隐式行为包括某页面停留时间、用户操作轨迹等。

            一般显示行为的权重要高于隐式行为,隐式行为一般作为补充验证。

 

三、推荐算法:物以类聚,人以群分

 

    1.物以类聚:基于内容属性的相似性推荐

        基于标签可以计算产品的相似度进行推送,进一步细化可以借助TF-IDF方式对标签设定不同的权重的方式来决定产品的权重,即出现频率越高的标签区分度越低,反之亦然(TD-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF(Term Frequency)意思是词频,IDF(Inverse Document Frequency)意思是逆文本频率指数)。

        基于内容属性推荐的好处 : 只依赖物品本身的特征而不依赖用户的行为,让新的产品、冷僻的物品都能得到展示的机会。

                                不足之处:推荐质量的优劣完全依赖于标签构建的完备性,如果标签词粒度不够细,不够全面,就难以计算相似度,达不到推荐效果。

       所以需要用户行为的协同过滤。

 

    2.人以群分:基于用户行为的协同过滤

        协同过滤(Collaborative Filtering)的基础:把用户的消费行为作为特征,以此进行用户相似性或物品相似性的计算,进行信息匹配。

        协同过滤可以分为三个子类:

            基于物品(Item-based)的协同:找到哪些与你在某一方面相似的人群,然后将这一人群喜欢的新东西推荐给你。

《内容算法:把内容变成价值的效率系统》观后总结

            基于用户(User-based)的协同:先确定你喜欢什么物品,再找到与之相似的物品推荐给你。只是物品与物品之间的相似度不是从内容属性的角度衡量的,而是从用户反馈的角度衡量的。

《内容算法:把内容变成价值的效率系统》观后总结

            基于模型(Model-based)的协同:用用户的喜好信息来训练算法模型,实时预测用户可能的点击率。其基于用户行为的特点使我们不需要对物品或信息进行完整的标签化分析和建模,从而实现了领域无关,可以很好地发现用户潜在兴趣爱好。

 

三、从算法到应用

 

    1.场景划分

        一个复合型产品是包含多场景的,推荐算法会针对不同场景做出相应的调整和适配。

    2.交互界面

        交互界面的迭代辅助了用户的决策,引导用户按照系统所期望的方式前进,以实现提升系统指标的最终目的。对推荐系统而言,有着“交互界面>数据>算法”的说法。

    3.推荐系统评估指标

        推荐算法的目标是提高分发效率:让每一篇内容获取更多的阅读,让每一个用户更多的去点击。从算法的角度看,评估指标大致份两部分:

            推荐准确度:对应到内容推荐系统中,表现为用户点击的预判(点击率)和对消费情况的预判(点击后的各种主动行为、停留时长);

            推荐覆盖度(多样性):好的推荐系统是能够给用户提供视野之外的内容。从用户的角度看,可以评估用户的展示历史中各种题材、类目、话题的丰富程度如何,丰富度越高代表个体体验的多样性越好;从内容角度看,可以评估有推荐展示的内容占整体内容量的比例。

 

冷启动:新的用户、新的内容对推荐系统来说都是没有过往信息量积累的、陌生的,需要通过累积一定的曝光量和互动量来收集基础数据。这个从0到1积累基础数据的过程就是冷启动。其效果的好坏直接关系到用户的满意度和留存度。

    

四、常见的推荐问题

    

    1.推荐重复。

    2.推荐密集:指用户推荐列表中同一类内容的占比过高,导致局部多样性丧失。

    3.易反感内容。

    4.时空限定内容。