保隆李威：打造自动驾驶汽车的眼睛和耳朵从机器的视角认识世界

汽车盖世汽车网 2019-02-22 15:11

盖世汽车综合

2月20-21日，2019全球第二届自动驾驶论坛在武汉举办，本次论坛以“智能驾驶改变未来”为主题。上海保隆汽车科技股份有限公司汽车电子总监李威发表了主题演讲，演讲内容如下：

上海保隆汽车科技股份有限公司汽车电子总监李威

我今天的主题是用机器的视角去感知世界，为什么有这样一个主题？其实现在大多数车上的传感器，视觉也好，雷达也好，往往都是基于仿生学去做的，而仿生最主要的主体是人类自己，但是车是一个很特殊的主体。所以说首先我们要从车本身的视角去看这个世界，而不是把人代入这个世界，所以我们未来所设计的各种传感器也好，其他部件也好，应该更符合车本身的特点。

那么车的特点是什么？

车有很多个跟我们人类不太一样的东西，其中最主要的是体积，大家可以想象一下现在一个小车的体积是人的多少倍。第二是速度，我们人的步行速度是非常慢的，即使你骑上自行车也就十几二、三十公里每小时，但车我知道在德国最快的话，如果不限速可以做到几百公里。另外一个是距离，正是因为速度快了，所以说它的距离较大。大家可以想象一下，你速度快了，那么你对距离的感知一定要求更远，我们人的目视距离即使在晴天的时候，你在高速公路上看远处东西是比较模糊的，但车往往需要更远的距离。对人来说，我们的眼睛更多的是适应阳光，我们是生活在地球上，所以我们的眼睛是为了适应太阳而存在的。当我们在夜晚的时候，除非一些很特殊的，比如说我们知道有些色盲对夜晚的敏感度比较高，除了这种以外，我们在夜晚的可视距离是很短的，我们毕竟不像狼等生物，在夜晚有非常好的视觉。

车不一样，车要求全天候在道路上行驶，不光是白天还是夜晚，所以你很难说我今天做一个自动驾驶系统，一个感知系统，只要求他在白天行驶，夜晚或者有些极端情况下我们不要求，这是不现实的。

基于此我们有一个判断，如果我们从仿生学的角度去看，车其实具有两个特点，第一它有猎豹的速度，而且它不是一个冲刺的速度，它拥有一个长时间奔跑的猎豹的速度。第二它拥有大象的体积，它需要看得更远。我们可以想象一下，像车这样一个东西，自然界里面是没有对标的，我们在自然界找不到这样一个动物像车一样。你们可以想一下，一个大象以猎豹的速度向前狂奔，那是怎样一种可怕的情形。

所以说基于此我们可以看到，当我们为车去适应整个感知系统的时候，他一定和传统是不一样的。举个简单的例子，大家知道我们现在很多的视觉系统是以30帧每秒去定义整个频率，为什么是30帧？有一个基本的特点——它是适合人类速度的，我们当时最早定义30帧每秒的一个初衷是人眼，我们的眼睛看着这个画面是无闪烁的。

我们可以看到，今天大量的车上的传感器都是以30帧每秒定的，但是我们已经可以发现很多不适应的地方。所以说现在我们很多新的传感器比如说60帧每秒，或者定的更高。我很赞同一个点——车上的传感器一定不能以人为出发点，一定有很多冗余。三个层，感知层、决策层和执行层，在感知层上面，我们看到现在最主要的几个传感器有毫米波雷达、激光雷达、摄像头，热成像在夜晚可以看得很远，它和摄像头的原理是不一样的。刚才上面有几个红色的点，红色的部分我们都做了，而且是全线产品。

第二就是车的特点是不一样的，不光有速度和体积，它环境要求特别高，有很高的温度要求，它有陆地到水面的要求，我们不能要求一个车只在晴天行驶，它一定会在雨天、在雪天行驶，而我们的传感器都是暴露在外面。所有暴露在外面传感器一定要有很高的防污性，所以说这一点也是另外一个点，我们不能把车跟手机类比，很多人会问我，我们手机上的摄像头已经是1000万像素了，那么你车上的像素多少？我可以很坦率地告诉大家，现在在车规级我们还是百万级别，我们目前最好的摄像头已经做到两三百万像素，并没有做得更高，为什么不能做得更高？不是因为技术达不到，而是因为可靠性，所以车对可靠性一定有很高的要求。

这是车的另外一个特点，它要求全方位的监测。我们可以看到人的眼睛是朝前看的，我们的耳朵是朝两边的，我们都不是无死角的监测，超过视角范围内，我们会扭着脖子向后看，但车不一样，车是一个庞然大物，我们刚才说过它是一头大象，大象转身是很难的，所以对车上的要求如果你需要达到360度无死角监测，那么就一定要求在车上装很多摄像头，装很多个雷达，而不是一个摄像头一个雷达，这就是车的一个不同，所以说我们千万不能以人的观点去衡量车。

这是我们保隆做的雷达，这是我们做的77Ghz雷达，我们现在另外一个特点就在于对分辨率的要求，车上雷达其实更类似于蝙蝠的耳朵，而不是人类的耳朵，蝙蝠的耳朵需要有很高的分辨率，目前来说77Ghz雷达分辨率是不高的，但事实上在未来我们到了图像雷达的区别到更高级别的时候，车一定需要更高的分辨率，我们有布局。

这是我们对汽车电子发展方向的一个判断。第一，我们认为感知层和执行层面未来一定要配合，甚至更多的融合，我们有一个感受，随着对算力的要求越来越高，算力一定会分层。我们不可能把所有的算力全部集中到决策层面，算力一定有一部分会分配到感知层面。第二，所有点的感知层面一定会要求对复杂信息有一个很好的识别，包括各种环境。整车的性能提高对传感器的要求更高，我说的整车性能是由于自动驾驶的推进，所以我们要求对整个车的性能要求更高。

这个传感器叫DVS，是一个很特殊的传感器，是我们保隆最新跟国内的一家高科技芯片企业一起研发的一个产品。今天我为什么要讲这样一个传感器，因为这个传感器符合我刚才讲的那些定义，它是一个很特别的东西，跟雷达、摄像头都不一样，甚至我们认为它可能是另外一种摄像头，它最大的一个特点在于它并不是以帧这样一个传统的概念去衡量，而是以流这样一个概念，它更符合汽车的特点。汽车最高的特点是速度，这样一个传感器可以响应非常快，它是高速动态的。有一个学术上的名称叫事件驱动，如果这个事件有变化，它就输出图像，如果没有变化，它就不输出图像。正是因为这样一个特点，这样一颗传感器的输出响应速度最高的时候可以达到纳秒级。大家不要把它和高速摄像头混合在一起，这样一个新的技术更多的时候是事件驱动的，它的每一个像素我们可以理解为一个开关，当世界的光线发生变化的时候，开关打开就往外输出，使它具有非常好的实时性和对这个事件的反应能力。所以说它是连续高速处理。

正是因为它可以对动态的物体进行处理，对传统的视觉来说如果我们要做一些计算的话，我们要对整幅图像做所有的计算，这样就消耗了大量的算力。算力是一个非常麻烦的问题，而这样一个传感器由于它是对事件动态产生变化，在前端等于它做了基于动态视觉提取ROI，减小了你的图像处理区域，大大提升了处理时间。第二，由于它是事件驱动，所以说它的像素点光强不需要去积累，我们传统的摄像头都是需要积累一定的光强然后输出，那么它不需要光强积累。它还有一个很好玩的特点，因为它是基于事件驱动的，所以它天然输出了物体的动态矢量信息，所以说它天然的可以去判断这个事物体的运动方向。大家可以想象一下，当一条路上有很多个人在走的时候，传统的相机都重叠在一起了，你是无法去分辨的，但是如果是基于目前新的技术，由于可以对每个运动方向有一个预测，对每一个物体的运动有一个输出，它天然地就可以把所有的物体区分开来。

最后它的时间可以达到纳秒级，我们也可以设定让它做到微秒级。传统上它也可以做一些灰度值的输出。我们可以看到一个人在打电话，这个人的动作幅度非常小，你可以看到他的轮廓在不断地输出，从上面的图里基本上看不到这个人在动，这个人基本上没有动，它有非常微小的动作，那么我们的事件驱动摄像头可以把这种非常微小的动作捕捉到然后输出出来，所以你可以看到他的轮廓在不断的变化，所有的变化就是轮廓的变化点。

最后一个特别有意思，光流。我刚才说过它可以测试物体的运动方向。抽烟的烟雾是由无数颗小粒子组成的，我们可以这么去理解，可以看到这个人在抽烟吐烟的时候，烟雾里面有不同的颜色，这种不同的颜色就是它的速度、矢量，矢量不同导致它的速度，即使是烟这样一种很微小的物体，我们依然可以通过动态驱动的摄像头抓到它的整个的特征。

我们看到这两个人是横向从里边穿出来，这是我们现在自动驾驶的一个软肋。现在不管是摄像头也好，雷达也好，甚至激光雷达也好，都有一个很致命的问题，我们对横向物体的敏感度是不够的，我们通常说自动驾驶在中国有一个最大的bug是电动自行车。如果今天有一辆电动自行车以很高的速度横向穿出的时候，我可以很坦率的告诉大家目前所有的自动驾驶车全部都可以挂掉，没有一个自动驾驶车能够在这个时候及时的对横向穿出的电动自行车做出很好的反应，这是由它的物理特征所决定的。

我们这颗摄像头因为对运动物体有很良好的输出，只要有东西横向穿出，我马上可以把它抓住，马上可以输出。上面和下面我们做了一个对比，上面是某个国际著名的做单目摄像头的企业的一个输出，下面是我们的输出，你可以看到他没有抓住，我们很好的抓住，我们也用雷达做过对比测试，雷达也反应不过来。在这种情况下我们目前所知的能够反应过来的只有这一颗动态视觉摄像头。

这是一个很好玩的案例。这是夜晚，这个是传统的摄像头，我们做了一些灰度处理之后，那边是高动态摄像头输出的，即使在夜晚，周边物体的轮廓依然可以非常清晰的输出，它具有非常强的光线适应能力，它的动态范围非常大。我们大概测试过应该是超过120个dB，应该会达到130dB左右，这个值我们现在还在测定中，还没有完全得出一个结论。

为什么我今天跟大家讲这样一个DVS摄像头？第一，确实是因为保隆现在正在开发这样一个比较前沿的摄像头，我们有传统的东西，但是我们也在开发这样一个前沿的摄像头。第二，目前自动驾驶再往后走，我们除了传统的一些东西，其实还源源不断的有新的技术出现，而所有这些新的技术，正一点一点地把汽车这样一台飞奔的大象的感知层填补得越来越好，它就会飞奔的越来越安全，这是一个点。所以说我们认为如果你是一个企业，你要去做感知层，你肯定不能说我只说一种或者两种，你一定要把所有这些感知层的东西按照特点去分类，做成不同的产品线，这样才能够在未来的市场上有竞争力。

所以保隆整个的目标就是去做汽车的眼睛和耳朵，所以我们致力于成为汽车的眼睛和耳朵，这个是我们目前部分的产品线。刚才的DVS是我们还在研发的东西，我们现在和国内的几家车厂已经达成了一些协议，预计在今年下半年就可以在国内的很多自动驾驶车上可以看到。

这是我们的一些算法，这是我们的双目。刚才也谈到到底是双目还是单目好，其实现在并没有一个结论，很多人说单目好，很多人说不好，我们在单目上有我们的系统，我们在双目上也有我们的系统，但是总的来说我们这边在感知层上所有的算法都是保隆自己研发的。

顺便谈一下双目的一个问题，很多时候我们谈到双目就有一个问题，就说到底是双目好还是单目好，其实这里面有一个很大的前提就是距离是以八厘米或者十厘米标准去衡量一个双目，但试想一下你为什么要定八厘米或者十厘米？这里面有两个因素，第一个因素你还是拿人去做类比，用我们人类眼睛的瞳距，第二点，我们想象一下汽车是一台飞奔的大象，它的双目距到底是多少最为合适？肯定不是八。我一直在强调在汽车上如果你要做双目一定是大双目距，一定不要做小双目距。大双目距其实更大的考验不是在算法上，而是在结构、材料形变，在这些材料学上，你怎么去弥补这些材料学的误差给双目带来的天然的差，这是一个大的特点。

这是我们的雷达，基本上我们的雷达全部都是自己研发，包括从天线到前端到算法都是自己研发，我们目前的雷达是2T4R、3T4R的，我们也会做一个是4T12R，我们的目标是到2021年的时候，我们能够输出一颗实际意义上的图像雷达，如果我们有一颗实际意义上的图像雷达配合我们刚才所说的DVS的时候，在感知层我们已经达到了速度和分辨率两者的统一，这个时候我们再去做图像和雷达的融合，整个世界就会不一样，我们也许能够真正真实地反映实际的三维的世界，这是我们的目标。当我们真实地反映了实际的三维世界的时候，我们可以给车厂提供更详细的感知层信息的时候，在感知层上，我们已经做好了准备。

这是我们雷达的一些技术优势。顺便说一下，如果我们要做这样一个东西，我们是要做整个系统，我们也做了一个评估系统，去评估我们整个系统是否有效。

为了评估我们的产品线和产品链，我们做了一个软件工具链，基于软件工具链，我们可以实际的评估我们的摄像头、雷达在实际场景中的应用是否合乎标准。

最后总结一下保隆的思路，宗旨是让更多人受益于汽车科技的发展，所以我们自始至终是沿着这条路在往前前进。同时在整个自动驾驶和ADAS上面，我们保隆始终是focus在感知层领域，我们希望能够把感知层做得更好，给更多的OEM提供更好的感知层产品。我们的目标是成为汽车的眼睛和耳朵，谢谢大家。

【以上内容转自“盖世汽车”，不代表本网站观点。如需转载请取得盖世汽车网许可，如有侵权请联系删除。】