【公共数据集】AI训练主流数据集400+,平台用户可直接下载使用(更新中)
-
恒源云的训练鹅们~
大家在训练时,是不是常常遇到数据的困扰
研究领域的数据太少、数据太脏等等。。。
甚至为了处理数据,耗费了大量的时间和精力,真是好难啊
即便是找到了一些公共数据集,要么需要梯子,要么太大上传耗时
可见,仅仅是搞定数据,就让训练鹅们够呛了
为了解决这个难题,让大家能真正地畅快训练
我们平台特别提供了大量的公共数据集
包括CV、NLP等领域,以及图像、文本等类型
目前仅限平台用户,可以免费任意使用噢
【如何查看
公共数据集】
大家登录平台后,进入【控制台】,在页面左侧导航栏中,点击【实例与数据】,菜单展开后点击【公共数据集】,如下图所示:
进入【公共数据集】页面后,可根据类型进行筛选,并搜索所需数据集,如下图所示:
【如何使用
公共数据集】
使用 oss 命令行工具 可以下载公共数据集。
使用 -public 参数可以浏览和下载公共数据集中的文件,如果是专有云用户浏览和下载专有云数据集,则使用 -cloud=ent 参数。
# 登陆恒源云账号,使用恒源云的账号名与密码,账号名为手机号 # 如果是非中国大陆手机号码,需要加上带 + 的区号 # 如果是专有云用户,需要增加 -cloud=ent 参数登陆专有云 ~# oss login Username:139******** Password:*********** 139******** login successfully! # 查看公共数据集的目录 (专有云用户需要将 -public 替换为 -cloud=ent) ~# oss ls -public -s -d oss:// # 查看某个公共数据集的文件 (专有云用户需要将 -public 替换为 -cloud=ent) ~# oss ls -public -s oss://MNIST # 下载公共数据集中的 MNIST 目录到 /hy-tmp 目录 (专有云用户需要将 -public 替换为 -cloud=ent) ~# oss cp -r -f -public oss://MNIST /hy-tmp ~# cd /hy-tmp /hy-tmp# ls MNIST # 下载公共数据集中的某个文件到 /hy-tmp 目录 (专有云用户需要将 -public 替换为 -cloud=ent) ~# oss cp -public oss://MNIST/t10k-images-idx3-ubyte.gz /hy-tmp
或通过 SSH 客户端或 JupyterLab 进入实例终端,在 /hy-public 文件夹内可以找到公共数据集。
使用数据集时先将数据集复制到 hy-tmp 或 /hy-nas(仅限支持共享存储的机型)内,再进行解压。
~# cd /hy-public/ /hy-public# ls A2D2 ADE20K Argoverse BSTLD CCPD CIFAR COCO CUHK CWT MNIST ... /hy-public# cp -r MNIST /hy-tmp /hy-public# cd /hy-tmp /hy-tmp# ls MNIST
【求数据集】
最后,大家在训练过程中,如需要平台未收录的公共数据集,可以在论坛本板块【求数据集·更新中】发帖,客服将在第一时间联系您,帮您补充数据集~
有任何问题,都可以扫码联系客服Alice小姐姐哈~
-
Alice_恒源云
-
2021年7月,谷歌开源了AlphaFold2,平台第一时间下载了数据集,大家可前往/hy-public随意使用哦~
以下小视频,可拉至50s,进一步了解如何使用平台数据集~
-