禾赛科技携手Scale AI发布开源数据集,含37种语义标签、超百个场景

高质量标注数据是训练深度学习算法的“燃料”。目前,全球的自动驾驶公司所使用的深度学习算法,基本都需要使用标注数据来进行训练——只有通过不断学习标注数据,深度学习算法模型才能够帮助自动驾驶汽车更好地识别障碍物。而除了自动驾驶公司,其他自动驾驶算法开发者,例如学生、学术机构等,同样对高质量标注数据有着持续、强烈的需求。然而,今年以来,受新冠肺炎疫情冲击,一大批自动驾驶公司不得不暂停路测工作,直接导致可用路测数据的减少甚至断供,对自动驾驶深度学习算法模型的训练造成了严重影响。 在这样的背景下,近日禾赛科技与Scale AI联合发布了PandaSet开源数据集,为众多自动驾驶算法开发者带来了一场及时雨。

博猫官网最新活动
博猫官网最新活动

PandaSet数据集采用2款激光雷达和6个摄像头进行数据采集,包含超过16000帧激光雷达点云和超过48000张照片,共100多个场景。除了激光雷达点云和照片外,数据集还包含GPS(全球定位系统)/IMU(惯性传感器)、标定参数、标注、SDK(软件开发工具包)等信息。尤其值得关注的是,PandaSet数据集对100多个场景的每个场景都进行了目标检测,共检测28类物体;大多数场景还进行了语义分割,共37种语义标签。目标检测采用传统的长方体标注,例如,自行车和汽车可以用长方体线框框出来。而对于激光雷达点云数据,并非每个点都隶属于某一目标物,因此数据集还通过点云分割工具精确标注了每个点的语义标签。如此细腻的标注,也为深度学习算法模型提供了绝佳的数据资料。

博猫官网靠谱吗
博猫官网靠谱吗

对于一个自动驾驶数据集,场景的多样性和复杂性是衡量其优劣程度的重要标准之一。PandaSet数据集中的所有数据均采集自旧金山的城区道路和硅谷的郊区道路,这些道路涵盖了汽车、自行车、交通灯、行人、建筑物等各种各样的交通信息,是对自动驾驶挑战性最大的一类应用场景。此外,PandaSet数据集的数据覆盖了白天和黑夜,也让其具备了很强的适用性。

发表评论

电子邮件地址不会被公开。 必填项已用*标注