机器学习初学者必备的30个通用数据库【转】

有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。

大规模通用数据库:从这里入手

data.gov – 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。

data.gov.in – 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家政府的公开数据库,比如

英国:data.gov.uk

澳大利亚:data.gov.au

当然,也并非全世界国家的公开数据库都是“data.gov”加更改后缀就可以了,比如

加拿大:open.canada.ca

中国:data.stats.gov.cn

法国:etalab.gouv.fr

德国:destatis.de

总之,国家公开数据库相关权威标准,是你进行机器学习项目实践的一个不错的选择。

World Bank – 世界银行的公开数据库。该平台提供了好几个工具,比如开放数据目录(Open Data Catalog)、世界发展指数、教育指数等等。

Five Thirty Eight Datasets -这里是美国偏政治新闻网站Five Thirty Eight在他们的文章中使用的数据集。每个数据集里不仅包括了数据,还有解释这些数据的字典,以及相关报道链接。如果你想学习如何创建数据报道,这是你的最佳选择。

大型数据库:机器学习项目必备

Amazon Web Services (AWS) datasets– 亚马逊提供了一些大数据集,可以在他们的平台或你自己的本地计算机上使用。亚马逊上的热门数据集包括完整的Enron电子邮件数据集,Google图书n-gram,NASA NEX数据集,Million Songs数据集等等。

Google datasets– Google提供了几个数据集作为其Big Query工具的一部分,包括婴儿名字、GitHub公共存储库的数据、所有来自Hacker News的故事和评论等。

Youtube labeled Video Dataset – 几个月前,谷歌发布了YouTube标记的资料集,其中包含800万个YouTube影片ID和4800个视觉实体的相关标签。不仅如此,这个数据集里面还配备了几十亿帧经过预计算的、最先进的视觉feature。

预测模型与机器学习专用数据库

UCI Machine Learning Repository– UCI机器学习库显然是最著名的数据库,也是寻找与机器学习知识库相关数据集最常去的地方之一。该数据集包括从诸如Iris和Titanic等流行数据集,以及诸如空气质量和GPS轨迹等新建的数据集。UCI机器学习库包含超过350个数据集,其标签分类包括域、目的(分类、回归)。你可以使用这些过滤器找到你所需要的数据集。

Kaggle – Kaggle提出了一个平台,人们可以在这里捐赠数据集,其他社区成员则可以对这些数据集进行投票或在这些数据集上运行内核/脚本。Kaggle共有超过350个数据集,其中,超过200个作为精选数据集(Featured datasets)。 虽然一些数据集跟其他地方有重复,但在这里我也发现了在其他平台没有的一些有趣的数据集。此外,Kaggle界面的另一个好处是,您可以在同一界面上查看社区成员的脚本和问题。

Analytics Vidhya – 这是我们自己网站的数据集,包括使用问题数据集和黑客马拉松数据集。这里的数据集都是基于现实生活中的行业问题,并且有专为为期2 – 7天的黑客马拉松的相对较小的数据集。虽然关于真实生活中的实际问题数据集哪里都有,但黑客马拉松比赛之后相关数据集就不可再用。所以,你需要参加黑客马拉松,才能获得相关数据集。

Quandl– Quandl通过其网站/ API或其他一些工具直接集成金融、财经方面的数据,分为Open和Premium两种。其中,所有Open数据集都是免费的。

Past KDD – Cup KDD Cup是由ACM知识发现和数据挖掘特别兴趣小组组织举办的年度数据挖掘和知识发现比赛。这里的存档包括数据集和比赛说明。大多数年份的冠军机器数据库都能在这里找到。

Driven Data – 现实世界实际问题数据库,你可以用它来创造积极的社会影响。Driven Data举行在线模拟竞赛,从而让参赛者开发出最好的模型来解决这些现实问题。如果你有兴趣使用数据科学对社会做贡献,这就是你该去的地方。

图像分类数据库

MNIST数据库 – 使用手写数字进行图像识别最流行的数据集,包括6万个训练样本和1万个示例测试集。MNIST数据库是你用作练习图像识别的第一数据集。

Chars74K – 这是MNIST数据库的下一级,其中几包括一些自然图像中字符识别数据集。Chars74K数据集包含7.4万个图像,这也是该数据集名称的由来。

Frontal Face Images – 如果您已经处理过前面的2个项目,并且能够识别数字和字符,那么这里是图像识别中的下一级挑战。这些图像由CMU和MIT整理收集,列在四个文件夹中。

ImageNet – 这个数据集想必不用多做介绍,这里简单说一下。ImageNet是根据WordNet层次结构组织的图像数据库(目前只有名词)。每个节点由数百个图像分层次行描绘。刚想治疗术了; 具有每个节点图像平均超过500个图像(并且持续增加中)。

文本分类数据库

Spam – Non-Spam – 一个有趣的数据集,你需要构建一个分类器将SMS分类为垃圾邮件或非垃圾邮件。

Twitter Sentiment Analysis – 该数据集包含超过157万条分类过的推文,正面情绪标记为1,负面情绪标记为0。这些数据基于一项Kaggle竞赛建立的,作者是Nick Sanders。

Movie Review Data – 提供电影评论文档资料的集合,这些资料根据内容的情绪极性(正面或负面)或主观评价(例如“两颗半星”),以及根据句子的主观性状态(主观或客观 )或极性(polarity)进行了标记。

推荐引擎数据库

MovieLens – 帮人找电影的网站,有上万的注册用户。这些用户会填写MovieLens在线问卷,包括自动内容推荐、推荐界面、基于标签的推荐等等。这些数据集可供下载,用于创建你自己的推荐系统。

Jester – 关于在线笑话推荐系统的数据集。

更多数据库资源

KDNuggets – KDNuggets的数据集页面一直是寻找数据集的人的常用参考。这里有一个非常全面的列表,但有些源不再提供数据集。因此,在使用时需要对数据集及源自行判断。

Awesome Public Datasets – GitHub 库,包含按域分类的数据集的完整列表。数据集在各个域中被整齐地分类。但是,没有关于库本身的数据集的描述。

Reddit 数据集Subreddit – 由于是社区驱动的论坛,这个数据集可能会相对有一点凌乱(与前两个源相比)。但是,你可以按热门程度或投票排序数据集,以查看最受欢迎的数据集。此外,Reddit 网站上还有一些有趣的关于数据集的讨论。

我希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,这将对你的技术成长大有益处。

如果你能想到这些数据集的任何其他应用或知道任何其他流行的资源,欢迎在分下面的评论里分享。

此条目发表在经验技术分类目录。将固定链接加入收藏夹。