特斯拉Teslabot概念风起,问道机器
(报告出品方/分析师:华安证券研究所张天)
Teslabot原型机有望在9月AI日发布,带来高精度机器人视觉技术创新性落地。特斯拉机器人延续了视觉为主的传感技术路线,其基于视觉的神经网络技术已经在特斯拉电动车FSD上得到实战验证,有望借助于Dojo超算加速训练升级。由于特斯拉全球独一无二的庞大数据库以及领先的AI预测能力和算法,特斯拉认为目前纯视觉方案也能较好弥补深度传感器缺失带来的不足。
1Teslabot原型机有望在9月AI日发布,带来高精度机器人视觉技术创新性落地
马斯克表示将在9月底“特斯拉AI日”发布Optimus人型机器人原型机。年8月,马斯克于特斯拉AI日宣布将在年推出原型机器人。今年4月7日,CyberRodeo活动器件,Tesla在制造工厂展示了该产品并表示将在年投入生产。6月3日,马斯克在其推特上预告将在9月30日今年的特斯拉AI日正式发布Optimus人形机器人原型机。根据去年AI日发布的介绍显示,Tesla机器人身高1米72,体重56公斤,可负载20公斤,行动速度最高8公里每小时,该机器人旨在执行繁琐的日常任务或危险的工作,如体力劳动和家务等。
特斯拉机器人不仅具有灵巧的“四肢”,还拥有聪明的“眼睛”。介绍特斯拉机器人的系统组成结构。Teslabot将具有人类级别的手和两只脚,其全身搭载了40个机电执行器,其脚部具备压力反馈感知能力,手部装载12个机电执行器,这意味着特斯拉机器人不仅能像人一样在负重时保持平衡行走,并且可以执行一些精密的人类手工作业。传感技术方面,Teslabot延续特斯拉汽车以视觉为主技术路线,使用Autopilot摄像头充当感知系统,在采集信息后,通过强大的神经网络处理和识别不同任务,依靠其胸腔内部搭载的FSD全套计算机完成。此外,得益于Dojo计算机等特斯拉日益强大的AI训练能力和自动驾驶场景模拟系统,特斯拉机器人在出厂前就将具备对环境路径、周围物体的识别和路径规划能力。
基于视觉的神经网络技术已经在特斯拉电动车FSD得到实战验证,有望借助于Dojo加速训练芯片实现升级。特斯拉FSD目前已完成了横跨美国绝大多数道路的数据采集,每辆特斯拉每天采集的数据近4GB,累计采集数据达1.5PB,特斯拉汽车积累的海量数据和算法,有助于帮助机器人实现更复杂“自动驾驶”快速落地。
特斯拉FSD工作流程包括识别、预测、规划三个步骤。1)通过路测采集和计算机模拟,特斯拉积累了多达万个10秒视频并通过无监督机器学习给60亿个物体贴上了深度、速度和加速度的标签;2)特斯拉的FSD能够对收集到的数据加入时间戳以形成一定的“记忆”能力,对车辆的相对位置、速度以及不在视野范围内的障碍物等将做出实时预测,这弥补了纯视觉算法对于障碍物遮挡下实时决策的限制,成为FSD更加“智能”的关键;3)FSD完成了对多种常见驾驶场景的路线规划算法迭代,如“有车变道”、窄道遇车、停车场寻位等。由于特斯拉全球独一无二庞大的数据量和领先的AI预测与算法,特斯拉认为目前纯视觉方案也能较好弥补深度传感器缺失带来的不足。
去年AIDay上,特斯拉AI超算Dojo亮相,这款芯片单芯片算力为TFLOPS,25个芯片一组组成一个训练模块,算力可达9PFLOPS,接口带宽为36TB/s,目前Dojo组成的机柜集群由个训练模块组成,内置个Dojo芯片,超过万个训练节点。通过自研最先进的AI训练基础设施,特斯拉省去了购买昂贵的GPU服务器的大量成本并不需要依赖其他云服务商的能力,保障了数据和算法的安全。特斯拉有望将Dojo超算强大的AI大数据训练能力赋能Teslabot,从而大大缩短机器人上线和后续软件迭代的速度。
各大平台着力打造机器人技术平台,AI下一波浪潮已开启。我们在之前关于GTC的点评中指出,AI的下一波应用爆发浪潮为机器人,从AGV小车到自动驾驶再到人形机器人,AI正在从固定的计算机进化成可移动的机器人形态。特斯拉搭建的自动驾驶场景模拟平台已帮助特斯拉积累标记3.71亿个模拟图像和4.8亿个立方体。特斯拉自动驾驶模拟系统由准确传感器模拟、逼真渲染、各种路上的事物和定位、可扩展的场景生成以及情景重构组成,这些能帮助特斯拉模拟一些现实中很少遇到的事故场景并提高数据冗余度。
而英伟达通过Omniversereplicator在DRIVESim和IsaacSim的加持下,通过仿真平台中的虚拟摄像机和传感器,合成难以标记的真值数据,并帮助AI工程师构建这些数据,弥补现实世界中不容易发现的数据缺口。各大自动驾驶巨头纷纷布局机器人技术开发平台和模拟工具,人形机器人有望接棒汽车成为重要的“机器人应用”。
2机器人视觉技术梳理:从工业级到消费级打开巨大市场
工业级能力下沉消费级应用场景,特斯拉机器人有望打开机器人3D感测市场空间。根据YOLE预测,全球3D传感市场年为50亿美元,并将在年达到亿美元。年,除苹果应用外,工业为3D传感的最大市场,其次为汽车和国防航天。3D传感最早应用于工业领域,主要应用于工业设备与零部件的高精度三维测量以及物体、材料的微小形变测量等。
在商业领域,人脸识别技术被广泛应用于支付和身份认证,YOLE预测-全球采用3D人脸识别的商业终端出货量复合增速为11.3%。随着底层元器件和算法的快速发展,3D视觉感知技术逐渐由工业向消费级推广。其中在消费电子领域的主要应用为结构光技术和ToF技术在手机端的普及(用于生物识别、拍照景深以及AR传感)、体感游戏机等,在汽车领域主要用于汽车的自动驾驶和车载摄像头识别。工业、医疗、国防领域市场增长相对较慢,人形机器人的爆发有望给消费市场和工业市场带来强大增长动力。
机器人3D传感市场持续增长,特斯拉机器人有望下沉消费级场景带来巨大市场空间。目前,机器人的主要应用领域为工业机器人、服务机器人、特种机器人,根据《中国机器人产业发展报告》,年全球市场规模分别为亿、亿、亿美金。服务机器人的主要使用场景为扫地机器人、送餐机器人,并逐渐向情感机器人、教育机器人、医疗手术机器人、大厅引导机器人、商业清扫机器人等方向延伸。由于成本所限感知和执行能力较为简单,目前服务机器人使用场景较为单一,而仿生机器人(人型机器人)可以在日常生活场景中能代替人类完成更多操作且具备一定情感交互功能,随着成本下降,有望带动服务机器人市场爆发式增长。目前除特斯拉外,仿生机器人主要有波士顿公司研发的Atlas、瑞士ANYbotics研发的ANYmalC等。
服务机器人出货量虽多但ASP低,人形机器人若下沉消费级3D传感市场空间巨大。服务机器人3D传感器主要实现避障和简单路径规划能力,大部分使用低线束激光雷达,ASP较低。而工业机器人需要通过搭载的3D视觉传感器实现距离感知、避障导航、三维地图重建等多项功能,采用激光三角扫描、高精度激光雷达等,单机价值量高达美金以上。我们认为人形机器人3D传感器成本将远高于目前服务机器人并较工业级机器人低,若未来特斯拉机器人达到电动车近万量级销量,其搭建的3D传感模块市场规模或高达30-50亿美元。
按技术路线,3D传感主要分为结构光、iToF、dToF激光雷达、双目视觉、激光三维扫描五种。根据YOLE统计,年全球结构光市场为25亿美元,占比35%,其次为激光雷达22亿美元,市场占比31%;增长率方面,ToF、激光雷达市场CAGR分别为21%、19%,超过行业平均14.5%的增速。
图表12结构光和iToF技术路线市场规模占比年后持续提升
1)结构光:微软、苹果引领消费电子应用,未来有望渗透更多手机。结构光基于光学三角法测量原理,特定编码图案的结构光通过投影设备投射在被测物体,在被测物体表面形成相同形状的光条三维图像,通过光条的畸变和扭结可以重构计算物体的表面三维轮廓。年微软合作primesense发布首款搭载3D结构光的体感设备Kinect,年苹果发布iPhoneX搭载结构光模组带动市场迅速起量。目前采用3D结构光方案的手机厂商还有华为荣耀Magic、Mate20pro以及OPPOFindX等。
2)iToF:多应用于安卓手机厂商。ToF方案的基本原理均为测量光子脉冲发射和返回的时间差从而生成点云构建目标轮廓。其中iToF为间接飞行时间测量法,测量发射正弦波/方波与接收正弦波/方波之间的相位差,通过能量积分算法进行解相位与深度计算。iToF原理简单、分辨率高,在消费电子领域应用具有成本优势,缺点是精度低,有效探测距离不到米,且标定相对复杂、成像帧率低。目前采用iToF作为前置模组的手机机型有GalaxyS20Ultra、HUAWEIMate30Pro、VivoNEX等。
3)dToF:激光雷达主流算法,降本空间大。dToF直接测量发射脉冲与接收脉冲的时间间隔,其核心组件有VCSEL、SPAD、时间数字转换器(TDC)等。其主要算法是在单帧测量时间内发射和接收N次光信号然后对记录的N次飞行时间做直方图统计,取频率最高的ToF作为目标距离。dToF理论精度不随距离增加而下降(在功率充足下探测距离可达米以上),功耗低、抗干扰,采用数字电路架构便于后续集成。目前dToF算法是汽车和遥感激光雷达绝对主流算法(发射端汽车Lidar多采用EEL,消费电子多采用VCSEL,激光雷达与dToF深度相机的主要区别在于扫描方式,dToF深度相机为面发射),消费电子领域代表机型为苹果iPhone后置Lidar、ipadpro等。
4)双目立体视觉:主要用于工业相机和汽车ADAS,有望成为仿生机器人主要传感器。双目视觉成像原理与人眼类似,基于视差原理并利用成像设备从不同位置获取目标两幅图像,通过计算图像对应像素点的位置偏差来获取物体三维信息,其具有主动双目(主要为红外补光)、被动双目(可见光RGB)两种测量方式。双目视觉仅仅依靠图像进行特征匹配,对附加设备要求低,但需要对摄像头的位置进行精确标定,并且对环境光照敏感、探测距离近且算力要求高。目前大部分工业高精度相机采用双目视觉,部分运动捕捉和机器人视觉采用双目相机,如LeapMotion、ZED、大疆、奥比中光的方案。
5)激光三角成像:主要用于工业质检和位移测量。激光三角成像的激光器、被测物体、传感器之间呈三角形,激光器发射的光经物体反射,由视觉传感器接收,当被测物体沿激光方向发生移动时,传感器光斑将产生移动,由此可通过光斑位移距离计算被测物体与基线的距离值。激光三角成像法帧率高,主要优势为精度可做到亚微米级别,但需要被测物体和传感器之间有相对位移,且无法探测高速移动目标。
3机器人视觉感知技术进化史:从避障、识别,到精密执行操作
1.0阶段的基础功能为避障,代表场景为AGV、扫地机器人。在功能相对比较简易的移动机器人上,3D传感器的主要作用为避障,如AGV小车、巡检机器人、服务机器人、扫地机器人等,搭配SLAM算法可实现实时路径规划。这种应用场景不需要对环境和目标进行识别,且运动路径偏封闭式和固定路线,因此3D传感器主要追求高性价比。主要使用itof,简易激光雷达。
典型的应用为AGC小车,目前在自动化设备中AGV小车智能搬运占据主导地位。根据YOLE预测,全球AGV小车出货量5年CAGR有望达到30%,年市场空间达到6亿美元。AGV机器人视觉感知主要使用iToF和简易激光雷达,用于导航避障和对末端对接时的物体识别。扫地机器人目前主流方案为简易激光雷达,在高端机型中已使用dToF导航+结构光避障。
随着机器人从“自动化”走向“智能化”,对于环境和目标的识别能力需求开始出现,通过神经网络训练,单目RGB摄像头能够简单识别物体信息而双目视觉则具有更加精准的定位能力。目前,Lidar仍为消费和行业级机器人主要3D传感方式,随着Teslabot等仿生机器人的出现,我们认为3D光学传感技术增长或超出预期。
2.0阶段的进阶功能为识别,代表为L3以上自动驾驶。摄像头是ADAS功能实现的最主流传感器,如今L2+以上车型均配备了9颗以上摄像头,目前技术仍以RGB单目为主,但同时车厂也在寻求扩展“深度估计”感知能力(尤其是以特斯拉为代表的纯视觉方案)。传统单目视觉技术先识别后测距,测距采用密集光流技术+自监督单目图像深度估计,需要在目标识别和距离估算阶段事前建立庞大且精准的车型数据库。双目立体视觉正在由“小众”技术路线成为主流大厂重点
转载请注明:http://www.abuoumao.com/hyfw/3352.html