MovieLens数据集(电影推荐、Hive、Spark SQL)

MovieLens是历史最悠久的推荐系统。它由美国 Minnesota 大学计算机科学与工程学院的 GroupLens 项目组创办,是一个非商业性质的、以研究为目的的实验性站点。
—— 百度百科

MovieLens数据集是由GroupLens Research研究结构提供的用于推荐系统的数据集,但在大数据生态中,其应用范围远不止于推荐系统,各类书籍、博客、教学课件中,HDFS、MapReduce、hive、Spark、机器学习等相关技术栈案例中数见不鲜。

数据集包括用户对电影的评分数据、电影元数据信息和用户属性信息,有不同的数据规模的数据集,如ml-100k包含10万评分数据,ml-1m包含100万评分数据,数据量最大的是ml-latest,包括将近3000万评分数据。

MovieLens数据集(电影推荐、Hive、Spark SQL)

数据集下载地址
http://files.grouplens.org/datasets/movielens/