解决fetch_20newsgroups下载速度巨慢问题的方法
前言:
当我们在学习机器学习时,我们会用到sklearn.datasets来获取数据集,小数据集在我们安装sklearn时就已经下载好了保存在本地,但是当我们需要大数据集时就需要到网上下载,比如新闻数据,我们可以使用fetch_20newsgroups()方法来下载,但是下载速度巨慢,试过的人都深有体会,所以我在这里介绍一个方法,来解决这个问题,如果有更好的方法,欢迎各位大佬赐教!
1、从http://qwone.com/~jason/20Newsgroups/上面找到Data然后再找到20news-bydate.tar.gz ,然后下载
2、下载完了以后放到C:\Users\lenovo-pc\scikit_learn_data\20news_home目录下
3、到目录C:\Users\lenovo-pc\AppData\Local\Programs\Python\Python37\Lib\site-packages\sklearn\datasets下找到_twenty_newsgroups.py或twenty_newsgroups.py打开
4、将
# logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)
# archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)
注释掉,这两行代码就是下载数据的代码
然后添加
archive_path = os.path.join(target_dir, r'20news-bydate.tar.gz')
保存即可
5、运行程序等待,系统会自动解压20news-bydate.tar.gz文件然后删除,最终生成20news-bydate_py3.pkz文件
此时即可查看数据了