虽然有数百个公开可用的数据集,但找到它们可能需要数月的搜索。当发现潜在的来源时,他们很少为研究人员提供足够的信息来决定该集合是否实际上包含他们需要的数据类型,而无需下载常常庞大的文件并首先对其进行排序。
感谢加州大学河滨分校的计算机科学家,找到合适的数据集现在就像为网站添加书签一样简单,而且它的成本绝对没有。
Marlan和Rosemary Bourns工程学院计算机科学助理教授艾哈迈德·埃尔达维(Ahmed Eldawy)和他的团队在过去三年里一直在为公共时空数据集梳理互联网,研究他们的属性,并总结每组互动的结果。地图向用户显示他们正在获得的内容。
“从事数据科学工作的人需要数据集,但可能会花很多时间找到它们,”Eldawy说。“我想建立一个他们可以轻松找到的档案。”
称为UCR时空活动存储库或UCR STAR,该存档作为服务提供给研究社区,通过交互式探索界面提供对大型时空数据集的轻松访问。用户可以搜索和过滤这些数据集,就像购买他们的研究一样,除了一切都是免费的。
“地图界面可视化数据,因此你可以看到它是否合适,”Eldawy说。“它就像是数据集的目录。”
作为UCR STAR的核心,该地图为数据集提供了交互式探索界面。与谷歌地图或其他网络地图类似,用户可以放大和缩小并平移以快速浏览数据分布,覆盖范围和准确性。
选择数据集后会显示重要的详细信息,例如原始主页,原始下载源的链接,字节大小,记录数,文件格式和其他有用信息。子集下载功能允许用户快速下载给定地理区域中的数据,从而减少下载大小。他们还可以在网页上嵌入自定义视图,或通过社交媒体分享链接,并将其加入书签以便日后重新访问。
UCR STAR包含102个数据集和50亿条记录。数据集使用Da Vinci进行映射,Da Vinci是一个基于Apache Spark的开源框架,Eldawy设计用于处理空间数据。UCR STAR网站最好通过桌面浏览器访问,但也具有有限的移动友好界面。