排除那些精确到小数点后两位的自动驾驶的代际数之外,目前国内最能让我感到“有意思”的自动驾驶技术,就是昨天第二届百度Apollo生态大会上百度Apollo的L4级纯视觉感知解决方案——Apollo Lite。
先按下L几这个对于消费者非常直观的自动驾驶指标不表,整件事中最有意思的部分就是百度解决自动驾驶解决方案的核心方式:纯视觉。用百度自己的话来说,就是这套解决方案是通过对10路摄像头、200帧/秒数据量的并行处理,单视觉链路最高丢帧率能够控制在5‰以下,实现全方位360°实时环境感知,前向障碍物的稳定检测视距达到240米。
依靠这套感知系统,百度无人车可以在城市道路上实现不依赖高线数旋转式激光雷达的端到端闭环自动驾驶——并且已经在北京稻香湖等多地多路段落地测试。
听上去感觉很美妙对不对?毕竟仅用常识来思考,10个摄像头的成本再高,也高不过那车顶上旋转式激光雷达。但问题来了,为什么在主流的自动驾驶技术企业中,目前只有特斯拉选择了纯视觉的解决方式?又是什么原因能让马斯克曾破口大骂:“用激光雷达做自动驾驶的都是傻X”,得罪了几乎全部的同行?
伟大航路的殊途
却未必能实现同归
自打2014年,SAE International(国际汽车工程师协会)制订了一套自动驾驶汽车分级标准,其对自动化的描述分为5个等级开始。就如同海贼王罗杰在处刑台上喊出他的所有财宝都埋藏在伟大航路终点,引发了“大海贼时代”一样。众多志在实现自动驾驶的企业纷纷挑明旗帜,立志成为最先到达“ONE PIECE”的人。
结果呢,2018年的时候,长时间内都是自动驾驶领头羊的企业Waymo CEO John Krafcik在一次技术大会上亲口承认,L5级别的自动驾驶真的很难,人类距离在任何天气任何情况下的自动驾驶可能还需要几十年。又让所有对于自动驾驶抱有期许的人陷入了万古如长夜的灰暗。
而其中牵绊住人类脚步的很重要的原因,就是算法。
无数在图像算法上倾尽毕生所学的专家们悲哀地发现,当我们将图像的几个像素改变时,算法输出的结果就大不同。并且,网络越深,我们就越能看到这些失败的泛化。
2016年,特斯拉一辆Model S车追尾白色拖车,导致驾驶员丧生。当时特斯拉官方称,拖车侧面是白色的,在太阳强光的照射下导致驾驶者和自动驾驶系统都没有注意到这辆拖车。
两年之后,Uber的自动驾驶车撞上了一名过马路的女子,后期的调查报告显示,自动驾驶软件先是错误地将该女性识别为一个未知物体,然后是一辆车,最后是一辆自行车,最终女子被撞身亡。
自动驾驶不能普及的另一个原因被苹果联合创始人Steve Wozniak指了出来:“道路是由人类建造的,人类是不完美的,而且汽车目前无法解释这一因素。”
原因听起来很可笑对吧?但事实却很可能正是如此。百年来我们所建立的现代道路规划以及基础设施,完全都是因为我们人类的使用习惯所设。
而机器所需要的是更加纯粹、更加准确、更加符合机器使用习惯的环境。这就像是为什么罗永浩那基于划时代的语音输入系统打造出来的TNT,理应让我们输入方式更加轻松,但我依然在用鼠标键盘来写这篇文章,而罗老师在上演真还传。(真的是在哪都能拉罗老师出来敲打一番)
那既然我们没法改变道路现状的事实成立,有没有另一条路通向自动驾驶的“ONE PIECE”呢。激光雷达便是这样一个选择。
在这我就简而言之概括一下激光雷达的优点:激光雷达的探测距离和准确性都大大高于摄像头,去年,通用汽车旗下自动驾驶技术公司 Cruise Automation的 CTO Kyle Vogt 曾表达过,激光雷达传感器可带来冗余和重叠的功能,让车辆即便面对最具挑战性的环境,也能够应对。
换句话来说,现在大多自动驾驶企业选择激光雷达和计算机视觉结合的方案,为的就是留出安全冗余。
不激进就不是特斯拉,在马斯克看来,让自动驾驶汽车顶着尺寸又大,同时造价需要数万美元的激光雷达就是塑造一种虚假繁荣。不丢掉激光雷达这根拐杖,自动驾驶汽车就无法实现真正意义上的自动驾驶。
所以,现在以特斯拉为首,百度跟上步伐的纯视觉派和其他大多数自动驾驶厂家选择的激光雷达派,针对最先抵达自动驾驶的终极目标而陷入了不同的困境。纯视觉派更像是等待“不成熟的技术变成熟”,激光雷达派则在等“好技术变得更便宜”。几乎可以笃定地认为,谁最先走通自己的道路,到达自动驾驶这条伟大航路的终点,就在这场零和博弈中将对方彻底挤下船。
那么特斯拉和百度
究竟是怎么想的?
先说答案,特斯拉和百度考虑问题的终极目的,就是自动驾驶的商业化。
早在2016年,特斯拉在更新 Autopilot 2.0 硬件时,就使用了8 颗摄像头,包括前置三目摄像头(分别是长距窄视角、中距中视角和短距鱼眼)、车辆的左右两侧各有 2 颗面向侧前和侧后的摄像头,再加上 1 颗后置摄像头,8 颗摄像头完成了 360° 纯视觉感知的无死角覆盖。
但在其中非常有意思的是,匹配这套系统的核心芯片被改成了可插拔式设计,便于后期高性能芯片迭代之后的装车。特斯拉的这个伏笔直到去年四月特斯拉FSD高算力芯片的量产,我们才有机会看到不久之前北美FSD自动驾驶Beta版的推送。
由此可见,特斯拉和百度所等待的,是算力和算法的提升。百度 Apollo 技术委员会主席王亮也曾表态过:摄像头的图像信息密度大、蕴含的环境信息最为丰富。但对人才、算法、数据、规模化机器学习的能力提出了很高的要求,需要强大的算法、大量数据的积累和长期的研发投入。
在这里需要插播一条来自新华社的报道:仅北京一座城市就有 100 多家专门从事数据标注的公司,全国有超过 1000 万人在从事数据标注工作——自动驾驶行业“数字富士康”实锤了。
训练算法时的人工标注
而且更有意思的是,百度Apollo在此之前并非是纯视觉路线的忠实拥趸。恰恰相反,百度一直坚持以激光雷达为主的多传感器融合路线,但是为什么会切换轨道,和特斯拉成为了战友?
用王亮自己的话来解释,就是在激光雷达为主,视觉为辅的传统策略中,视觉感知自身的问题和缺陷在雷达感知的掩盖下暴露不够充分。因此,视觉感知问题需要独立出来才能更好的解决。
也许正是因为百度曾经深入了解过激光雷达的优点和短板之后,做出了选择不同技术路线的决断。而且算力的迭代也让百度和特斯拉一样,摸到了解决问题的钥匙。在昨天的发布会上,在算力层面,百度宣称 Apollo Lite 所需算力不到 30 TOPs,一个单卡 GPU 即可驱动。
邓小平曾经说过,中国式的现代化必须从中国的特点出发。这句话套用在百度身上同样适用,毕竟作为自动驾驶的技术提供者,最终实现技术落地的并非百度自己,而是百度所服务的各家车企。以现在国内对于自动驾驶技术嗷嗷待哺的新能源企业,一个最通用、成本相对最合理的解决方案,必然是最符合国情的。而从最终装车的成本和实现规范化的技术难度来说,纯视觉路线似乎是最合适不过的。
这就非常有意思了。虽然在实现自动驾驶的路径上,百度已经成为了特斯拉为数不多的队友,但是到头来在中国市场,特斯拉的这位“队友”是要帮助特斯拉在中国市场上的各位对手来阻击自己的。毕竟,特斯拉的技术只能为自己所用,而百度Apollo的方向则是“开源”,为加入自己技术体系的所有企业做技术后盾。
但是在如今激光雷达技术的成本愈发低廉的时代,纯视觉路线是不是人类最终实现自动驾驶的唯一选择,依然是个问号。到底谁才是过渡技术,谁又能在零和博弈中将其他对手全部扫下马,现在依然是个未知数。