【BDTC先睹为快】一点资讯田超:谈谈兴趣引擎背后的技术

连续成功举办九届的中国大数据大会见证了中国大数据技术生态系统的建立、发展和演变,目前已成为国内最具影响力、规模最大的大数据领域技术盛会。作为极具实战价值的专业交流平台,中国大数据技术大会已经成为国内外中高级技术精英最期待的深度分享会。

2016中国大数据技术大会将于12月8日-10日在北京举行,大会为期三天,聚焦行业最佳实践,数据与应用的深度融合,关注热门技术在行业中的实践和应用,除Keynote外,主办方精心策划了16场专题技术和行业论坛,涵盖了大数据分析与生态系统、大数据云服务、HPC大数据、推荐系统、数据安全与隐私保护、人工智能、网络与通讯、政策法规与标准化、工业与制造业、数据库、金融、精准医疗与健康、智慧城市、交通旅游与出行等主题。届时,超过130位技术专家将为现场千名以上的大数据行业精英、技术专家及意见领袖带来100多场技术演讲,分享最新技术与实践的洞察与经验,共商大数据时代发展之计!

在推荐系统论坛,本次大会邀请到了一点资讯大数据技术总监田超担任演讲嘉宾,发表题为“一点资讯大规模实时点击反馈平台设计与实践”的主题演讲。实时获取和发现海量用户精准兴趣是一点资讯兴趣引擎的核心能力之一,在本次演讲中,田超将介绍一点资讯兴趣引擎背后的技术,一点资讯大规模实时点击反馈平台——Neo的设计与实践,以及设计过程中面临的问题和挑战。该平台作为基础设施,是支撑包括实时用户画像、实时数据分析、大规模在线学习、实时广告统计等业务的基础平台。

【BDTC先睹为快】一点资讯田超:谈谈兴趣引擎背后的技术
一点资讯大数据技术总监 田超

田超,目前在一点资讯任职大数据中心技术总监,负责基础架构及大数据平台相关工作。硕士毕业于中国科学院计算技术研究所,曾任雅虎北京研发中心工程师、同步盘CTO、高德软件高级技术经理等职,有比较丰富的大数据领域相关经验,熟悉分布式存储、流式计算、个性化推荐及搜索相关技术。

以下为采访实录:


CSDN:请先介绍下自己以及目前的工作重点。

田超:我目前在一点资讯负责大数据部门的工作,包括基础架构、机器学习高性能计算、大数据平台和数据挖掘与分析等。一点资讯是一个在快速成长中的平台,目前平台总用户量达2.9亿,日活跃用户4800万,月活跃用户达到1.5亿。此外,平台主动订阅用户4700万,单日点击收藏次数580万,单日评论数280万,人均每日阅读文章篇数20篇,总订阅频道数超300万个,自媒体账号总量达10万个。因此我们的整个业务都一直面临着数据量和访问量不断增大的问题,所以我们也在不断研发和优化着我们的系统,目前主要的工作点包括大规模机器学习系统和基础架构的改进。

CSDN:与一般具备个性化推荐功能的移动阅读客户端相比,一点资讯有什么不同?具有哪些特点?

田超:个性化推荐差异化:与一般具备个性化推荐功能的移动阅读客户端不同,一点资讯凭借用户兴趣搜索+订阅不同主题内容的用户兴趣主动表达的全球首创的“兴趣引擎”,支持任意关键词的长尾频道订阅,是行业内唯一给出用户主动表达兴趣入口的移动资讯产品。凭借兴趣引擎,一点资讯可以发现更加真实、完整的用户画像,为其推荐除了热点、爆炸性新闻之外的更有意义和价值的信息,提供兼具共性与个性的移动价值阅读平台。

一点资讯始终保持互联网产品的快速迭代节奏。内容形式上,除新闻资讯外覆盖了更多维度,包含新闻资讯、音视频内容及知识问答、百科在内的全网化内容。此外,在持续打磨一点资讯独有的“搜索+推荐”兴趣引擎和不断优化产品体验的基础上,在海量数据基础上优化内容分发、推荐能力,强化了机器算法与人工编辑之间的配合。

CSDN:作为一款有机融合搜索和个性化推荐技术的兴趣引擎,一点资讯能够为用户提供定制化的推荐服务。可否介绍下一点资讯的推荐系统?其架构是怎样的?运用了哪些热门的技术?

田超:一点资讯是一款基于兴趣推荐的个性化资讯客户端,拥有亿级别的用户并收集了海量的用户兴趣数据。一点内部也使用了很多的热门的开源技术来构建我们的系统,包括Spark,JStrom,Kafka,Hadoop,RocksDB,HBase等等,对于这些技术,我们也做了很多的系统级别优化,使得这些技术。具备海量规模下Production Ready的服务级别。除此之外,我们也有大量的自有开发的技术,尤其是我们背后的推荐引擎,主要包括基于用户画像的推荐、基于大规模在线机器学习FTRL的推荐,和基于兴趣图谱的推荐系统。

移动互联网时代,信息流广告是最有效、最符合移动端习惯的广告形式。一点资讯还推出了SmartFeeds(智能化信息流),是基于信息流广告升级之后,基于人工智能在信息分发领域的应用,能够实现标签的智能化,和分发的智能化,可以帮助营销信息分发并与品牌消费人群真正需求相融合,达成效果最大化,将广告变成一条有生命的信息,实现与用户更有效的沟通。

CSDN:请谈谈您在这次大会上即将分享的话题。

田超:这一次参加大数据技术大会的演讲,我将分享一点资讯大规模实时点击反馈平台的设计实践,大规模实时点击反馈平台是线上个性化推荐的基石系统之一,也是我们最核心的数据计算引擎。这个平台的上游承载了包括实时画像、实时数据分析、实时广告数据统计、在线机器学习在内的多个核心业务。


130+位讲师,16大分论坛,中国科学院院士陈润生,美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥,驭势科技联合创始人、CEO吴甘沙,上交所前总工程师白硕等专家将亲临2016中国大数据技术大会,票价折扣即将结束,预购从速

【BDTC先睹为快】一点资讯田超:谈谈兴趣引擎背后的技术