无人车落地离不开它!揭秘高质量AI数据这条护城
车东西(公众号chedongxi)
文 | 肖涵
自动驾驶技术经过多年发展,已经进入到了落地的关键时期,媒体和公众往往也喜欢将视线都聚焦在自动驾驶公司身上。
但在长沙、广州等地已经落地行驶的无人出租车背后,其实都离不开AI数据采集标注这个工种。
▲自动驾驶数据标注图示
正是海量高质量AI测数据的“喂养”,才让无人车上搭载的AI算法能够感知识别道路上的物体,可以说数据训练对于自动驾驶来讲,发挥着“眼睛”的作用,如果不能正确感知道路环境,智能驾驶的决策系统就无法正常工作。
那么自动驾驶公司到底需要什么样的数据?背后的AI数据采集和标注工作又是如何进行的呢?
带着这些疑问,车东西与国内头部数据采集标注公司云测数据总经理贾宇航进行了一次长达90分钟的深度对话,揭开了AI数据采集标准行业的神秘面纱。
▲云测数据房山办公区
一、自动驾驶头部企业的特征数据量第一
谷歌Waymo是全球公认的自动驾驶领头羊,但官方在宣传时,其实很少直接说自己的技术如何厉害,不过其往往会重点强调一个数据,就是自己的路测里程数,超过多少多少万英里。
在此前Waymo公布第五代自动驾驶系统时,其实际路测里程已经到达2000万英里(3200万公里),虚拟测试里程更是超过了160亿公里。
▲Waymo的无人车在街头采集数据
自动驾驶软件的核心环节为感知和决策。
为了实现更好的感知结果,大部分公司都会引入深度学习等AI技术。而想让深度学习的模型对某一类物体的识别率足够精准,就需要大量该类物体的不同数据,例如图像、视频、3D点云等。
与此,无人车想要量产,还必须要能够应付各类小概率事件(比如十字路口突然有行人摔倒在地)的情况,为了让决策算法能够适应这种小概率事件,自动驾驶公司也需要有这种小概率事件的数据进行针对性地研发和测试。
所以一下就是,无论在感知还是决策环节,自动驾驶公司都需要大量的交通数据来进行研发和测试,数据量就决定了自动驾驶公司的技术水准。
这正是Waymo为什么一直强调自家数据量足够大的原因。
除了Waymo,特斯拉也在量产车上部署了一个影子模式,就是在人类驾驶员开车时,其名为Auilot的L2级自动驾驶系统也会工作,去收集一些特定数据,然后上传到后台来优化Auilot系统,并逐步从L2升级到FSD(L4级完全自动驾驶)。
▲特斯拉的L2级自动驾驶系统表现极佳
特斯拉旗下的车型目前总销量超过100万台,按照每台车2万公里/年的行驶里程来算,特斯拉每年理论上最多可收集200亿公里的实际路测数据(实际情况只收集特定数据)。
正是这样的数据规模,才让特斯拉的Auilot系统遥遥领先于奔驰、宝马、大众等传统车企,并且不断推出像是Navgate on Auilot、智能召唤、红绿灯识别等新功能。
来看,自动驾驶技术领先的企业,数据量一定领先。
二、自动驾驶争夺战打响 对高质数据需求增加
自动驾驶技术应用后,不仅仅能够解放人类驾驶员,还能组成智慧交通体系提升整个社会的通行效率,并改变网约车行业、汽车行业、运输行业甚至是零售行业(例如移动无人商店),意义重大。
所以在谷歌Waymo研发数年后,中国、美国、欧洲、日韩等地区也相继涌现出大量自动驾驶公司,而像是苹果、英特尔、百度、上汽、通用、本田等IT巨头、车企巨头也加入到战局之中,一场席卷全球的自动驾驶技术争夺战已然打响。
正如前文所言,在研发高等级自动驾驶技术时,还原实际场景的路测数据或交通数据,是关键“燃料”。在这场自动驾驶技术争夺战的背后,高质量的数据已然成为各大车企护城河建设的重中之重。
▲美国街头的Waymo无人车
为了助力本国企业抢占自动驾驶技术高地,各国政府也在迅速出台政策为技术应用落地铺路,并规范行业发展。
例如今年2月份,发改委、工信部、财政部等11部委联合印发的《智能汽车创新发展战略》,给了智能汽车一个较为清晰准确的发展时间规划,在业内人士看来,“战略”勾勒出智能汽车发展的“远大前景”。
例如北京最近出台的路测规定,已经允许无人车进行载人测试(即无人出租车可以上路测试了),但也提出了一系列要求,比如想要申请载人测试,需要先通过实车+仿真测试,且此前的无载人测试中,最近1年内不能出现过交通事故。
毫无疑问,随着自动驾驶竞赛的逐渐白热化和政策的不断演变,自动驾驶行业对行驶过程中涉及的真实场景数据的需求量可谓是日益剧增,谁拥有更多的数据,谁就能够在这场争夺战中取胜。而像特斯拉和Waymo这种车企采集到的数据又十分有限,所以高质量的自动驾驶数据提供商成为了整个行业的命脉之源。
三、云测数据深耕质量 致力于为行业提供好数据
自动驾驶研发离不开数据的支持,但数据也并非是“傻多”,还需要质量到位才能发挥作用。
云测数据总经理贾宇航告诉车东西,高质量的数据有三个大框架——还原场景、大数据量、标注精准度高。
还原场景就是说自动驾驶数据要有针对性,比如某自动驾驶公司想训练一下无人车应对十字路口行人摔倒这种突发情况的能力,那么算法需要的场景数据就必须是发生在十字路口,如果是高速公路则必然不行。
同样的,即使是在十字路口这一特定场景下,还要尽可能多的让数据丰富起来,比如是白天、黑夜、雨天、阴天的十字路口,行人的衣着、摔倒的姿势、过程,也要尽可能的覆盖更多的可能性。
只有这样,才能让无人车上的AI技术完整识别所需场景,并作出正确决策。
对自动驾驶公司来说,想要收集到类似“路口行人摔倒”的场景数据,自然十分耗时耗力。
为了解决这一难题,云测数据在北京、横店、天津等地搭建了场景实验室,为的就是能够模拟还原不同的场景来进行数据采集。
▲云测数据的成员在搭建场景实验室
网络推广
- 5g网络有多快:5g网络网速有多快
- dota2无法连接至steam网络 为什么无法连接dota2网络
- 无线网络信号接收器 无线网络信号接收器怎么用
- 网络延时是什么意思 网络延时是什么原因
- 无线网络不可用:无线网络不可用是什么原因
- 网络广告销售技巧 网络广告销售技巧有哪些
- 智能手机网络设置 智能手机网络设置在哪里
- 为什么找不到无线网络 为什么找不到无线网络信
- 网络这么赚钱:网络怎么能赚到钱
- 为什么无线网络连接不上 为什么无线网连不起来
- 网络上的人际交往 网络上人际交往的优势
- 支付宝网络系统异常 支付宝显示网络异常什么时
- 营销软件:营销软件有哪些
- 无法访问您要使用的功能所在的网络位置
- 网络安全基本知识 网络安全基本知识有哪些
- 什么网络电话最好用 什么网络电话最好用最便宜