别被不可靠的数据集带沟里

对于自动驾驶研发者,如果想要训练出优秀的深度学习算法模型,就必须在选择数据集时格外擦亮双眼。因为一些不可靠的数据集,非但不能很好地训练算法,反而会给算法带来巨大危害,起到适得其反的作用。那么,什么样的数据集是不可靠的呢?简单来说,不准确、不完整的数据集就是不可靠的数据集。一些不准确、不完整的数据集正在把自动驾驶汽车带沟里,其中也包括知名数据集。一个被广泛使用的、包含15000张图片的开源数据集,在该数据集中发现了数千张缺少标注的图片,其中有数百张甚至没有任何标注,但这些图片中确实有小汽车、卡车、自行车、街灯或行人。不仅如此,该数据集还存在虚假标注、复制粘贴的情况,有些标注框的体积明显超标。

博猫官网电子游戏
博猫官网电子游戏

“成千上万的学生都在使用开源数据集支持自己的自动驾驶项目,但质量堪忧的数据集极易误导算法模型,从而导致自动驾驶汽车做出糟糕决策,这对于自动驾驶的研发是灾难性的。”事实上,数据集的准确性和完整性与数据采集、数据标注的流程密切相关。例如,在数据采集中,如果采集车搭载的传感器性能很差,那么采集到的数据质量一定也会很差,直接影响后续的标注及最终的使用。而在数据标注中,如果没有一套完整的标注方法,就很容易出现各种错误标记,如:未标出画面中存在的物体,反而标出不存在的物体,或者标注框没有贴合实际物体,甚至与实际物体发生大幅偏移。

博猫官网棋牌游戏
博猫官网棋牌游戏

对于如何打造一个高质量数据集,PandaSet是一个优秀案例。在数据采集中,PandaSet用于数据采集的两款激光雷达均为业内领先产品,这两款激光雷达由禾赛科技自主研发,一款是具有图像级分辨率的前向激光雷达PandarGT,另一款是64线机械旋转式激光雷达Pandar64,保证采集到的点云足够准确、清晰、细腻 — 世界上现有的开源数据集普遍采集较早,还鲜有使用Pandar64和PandarGT这样的高性能激光雷达来采集数据。此外,在数据标注中,负责该部分的Scale AI作为标注领域的翘楚,具有一套非常严格的标注体系,包括怎么标注、怎么检查、怎么复核、怎么对不合格的标注进行重新标注、怎么管理和考评负责标注的员工等。在整个标注流程中,Scale AI以人工作业为主,结合计算机辅助,充分保证了数据标注的完整性和准确性。

发表评论

电子邮件地址不会被公开。 必填项已用*标注