新闻文章数据集

问题描述:

我做新闻分类的项目。基本上,系统将分类根据预先定义的话题的新闻报道(例如体育,政治,国际)。为了构建系统,我需要免费的数据集来训练系统。新闻文章数据集

至今,经过几个小时的谷歌搜索,并从here链接只适合数据集,我能找到的是this。虽然这将有希望,但我想我会尽力找到更多。

注意,数据集我想:

  1. 包含完整的新闻报道,而不仅仅是标题
  2. 是英文
  3. 在.txt格式,而不是XML或DB

有谁能够帮助我?

你可以建造它,你可以写,你运行一个搜索一个Python/Perl的/ PHP脚本,那么当你找到答案,你可以隔离与正则表达式的属性...我认为是最好的选择。不容易,但应该很有趣,最后你可以与我们分享这个数据集。

+1

是的,我想找到的数据集,因为我将忙于与项目,所以我尽量减少事情要做。此外,我不知道如何在Python/Perl/PHP中编写脚本。 – Hearty

您是否尝试过使用Reuters21578?它是文本分类最常用的数据集。这是格式化的SGML,但它是相当简单的解析和转换为txt格式。