在杭州,我们逛了一家“数据博物馆”

布满荆棘的人生 2022-09-17 04:29 259阅读 0赞
鱼羊 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI

你可能打卡过很多博物馆,但我敢说“数据博物馆”,肯定不在此列。

上百个开源数据集是展品,其中不乏来自电商、文娱等互联网领域的真实场景数据,更有来自工业、医疗等领域的产业稀缺数据

还吸引了中国科学院国家天文台台长常进院士、创新工场首席科学家周明博士、阿里巴巴集团副总裁贾扬清、阿里巴巴青橙奖获得者王权等学者大咖纷纷前往围观。

不仅如此,“博物馆”还组织了一系列数据青年团聚活动,邀请青橙奖获得者、阿里星学长、技术KOL,与青年开发者畅聊《如何选择第一个工作》《AI的未来发展趋势与行业前景》等热门话题。

你或许想不到,这家“博物馆”是由阿里云天池在今年的杭州云栖发起。

aa3a2a64c3b7a0f0e226f08406ea0391.gif

没错,就是那个“奖金丰厚”、“直通大厂”、“还能结♂识AI大神”,人称“中国数据类赛事第一品牌”的天池平台。

不过现在,你可不能仅仅把它看作一个刷简历的平台了。

阿里云天池平台开起了“博物馆”,这究竟是怎么一回事?

什么是“数据博物馆”?

答案还得从现场获取。

e86611197df3bd1a6e861303fbb56abe.png

最吸引眼球的“展品”,当数行业大规模开源数据集

不仅数量多达上百个,还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务场景的商品数据,也不乏跟产业界、学术界深入合作获得的宝贵科研数据。

更厉害的是,基于这些数据集产出的学术论文,已经有超过700篇。

51983e73e82dc71133e4123ad024dc20.png

具体详情,我们不妨选取其中几个“经典款”,一起看个究竟。

比如新零售领域数据集,就有阿里淘系技术开源的家居行业数据集3D-FRONT,包含超过20,000张高清室内场景专业设计渲染图,可用于场景布局预测与生成等研究课题。

该数据集填补了业内大规模高质量3D场景布局标准数据集的空白,也因此获得了中国计算机图形学大会颁发的首个「图形开源数据集奖」。

775fddf5ca19ec87d222ade7e9bd52fd.png

再比如文娱数据集方面,服务于产业的视频数据集同样不少。

曾应用于“MEDIA AI阿里巴巴文娱算法挑战赛”的Youku-TED数据集,共包含近3,000小时的55,000段视频,标注了含53类事件类别的近30万段视频事件。

作为一个大规模的视频时序事件检测数据集,正是展开智能生产、视频智能剪辑、生产安全监控、视频内容检索等热门应用研究的基础。

ee0f555b2a99fb4306b07d8e86830109.png

更多方面,还有用于检测钢铁、布匹、酒瓶、瓷砖瑕疵的工业领域数据集,涉及遥感、气候、天文等领域的自然科学类数据集,以及医疗、交通、安全、数字城市等领域的数据集,都在开源列表之中。

值得一提的是,天池平台还广泛和外部机构合作,开放多个行业/学术benchmark。

像是由阿里达摩院、天池平台,以及浙江大学联合推出的MUGE榜单,就是一个用于多模态理解和生成评估的基准,这也是国内首个多模态方向的基准数据集。

4a325ae44d2676cd3ac74668bb62f769.png

如此大批量的开源数据集,确实不负“数据博物馆”之名。

那么这些精品数据集又是从何而来?

阿里云开发者业务总监王一婷介绍,一方面,他们会与业务团队共建自有数据集;另一方面,天池主动与工业、学术界合作,产出大量高质量脱敏数据集;此外,平台还支持用户共享数据集,共同推动科研数据集开源生态的建设。

而这正是阿里云天池今年重磅升级之后,启动的大规模数据开源计划

天池大动作为哪般?

又是来自真实行业大批量数据集的开源,又是建立行业benchmark,阿里云天池到底图什么?

众所周知,对于数据挖掘/机器学习这些学科,高质量数据集可以说是必不可少的生产资料。

但以高校学生为代表的青年AI开发者,很难接触到大量真实有效的数据,因此也就很难快速提升自身技术实践能力。

而与真实业务场景的脱节,带来的问题还不止于此。

比如,学界和业界在研究目标上往往不同。学界可能更加关注一些确定条件下的确定指标,而业界则会从成本和收益的角度去思考问题。

在云栖大会期间举办的天池数据青年团聚上,达摩院算法专家罗浩博士就谈到:

翻译模型准确率指标从70%提升到80%,在学界是足以发表论文的优秀成果,但对于产业界,就算一百句话都只翻错了一两个单词,还是需要人工全部重译,利润提升不大。

f00adef48f24286a832783f25e9d88d5.png

针对这些问题,天池开启大规模数据集开源计划,希望通过提供工业界的最真实的业务数据,降低青年开发者接触和使用科研数据的门槛。

再结合行业实际的竞赛,使开发者能真正研究和解决实际的工业场景中所面临的问题。

这样的举措,其实已见实效。阿里云天池大赛负责人王听介绍:

过去7年中,天池已经举办了400多场高规格的数据科学竞赛。其过程中,青年开发者不仅提升了自身的技术实践能力,同时也孵化出了优秀解决方案,甚至已经有直接反哺产业的案例。

也因此,现在,天池平台上逐渐聚集起90万+AI开发者,覆盖98+国家和地区、4300+海内外高校,成为了中国最大的人工智能开发者社区。

基于这样的背景,阿里云天池也就有了进一步扩大生态的空间:聚合起青年开发者,众智众创,为行业解决业务痛点,并为社会培养和输送人才,打造更完整的AI开发者创新生态,弥合从高校到产业的鸿沟。

32a7c6912294a0464ad7343524a01adc.png

天池变了,不再仅仅局限于比赛层面,而是从教育资源、计算资源、数据资源等更多的角度出发,面向青年开发者提供分享、互动、成长的社区阵地。

这样的转变,其实也正迎合了AI发展的大势之下,青年人才更低门槛进入到AI行业的需求。

而据天池方面透露,下一步,他们还将积极参与并致力于数据标准制定和行业标准数据集的建设,进一步服务于AI产业的发展。

那么,你又是否看好呢?

天池官网:
https://tianchi.aliyun.com/

发表评论

表情:
评论列表 (有 0 条评论,259人围观)

还没有评论,来说两句吧...

相关阅读

    相关 杭州的Me

    鄙人杭州程序猿一名,现在杭州市已经七月份低了,,Do You Know?,这里的天气真是太热了,,我下午对着风扇吹,就这样,,我被热醒了啊,,,,,对着风扇吹被热醒了,有木有,

    相关 面试之一--杭州小公司

    > 下午两点钟,当我踏入文泽路地铁是意味着我的大学就要步入新阶段了,纯粹的学习到实习生的正式求职之路。想来不乏伤感。地铁里闷热热的,在2号线古翠路A口出来时,清新袭来,细雨旖旎

    相关 画展

    1. 题目简介 博览馆正在展出由世上最佳的 M 位画家所画的图画。 wangjy想到博览馆去看这几位大师的作品。 可是,那里的博览馆有一个很奇怪的规定,就是在购买门票

    相关 ,转让批书

                    搬了新家,整理一批我觉得可以转让的书。 书基本上全新,封面可能会有折痕, 之前保管状况一般,书的边缘可能会有点泛黄。 部分书带有蓝色