2020-11-16 09:35:14 责任编辑: 瑞智光电 0
乐发vll 作为人工智能的两个分支,计算机视觉与机器视觉系统在近年都取得了长足的进步。前者自2010年至今,伴随着深度学习再度流行并用于目标识别,在人脸识别等方面类似超过了人类;而后者在工业运用方面,也有许多突破性的运用。
然而,在消费级市场方面,计算机视觉与机器视觉系统的进展并不大。许多人关于计算机视觉与机器视觉系统在消费级市场能有多大实质性地运用,存在深深地担忧。
计算机视觉与机器视觉系统
首先,我们有必要理清晰机器视觉系统与计算机视觉之间的关系。从学科分类上,二者都被觉得是人工智能下属科目,只是计算机视觉偏软件,利用算法对图像进行识别分析,而机器视觉系统软硬件都有,主要包括(收集设备,灯源,镜头,控制,机构,算法等),指的是系统,更偏实际运用。简单的讲,我们能够觉得计算机视觉是研究“让机器设备如何看”的科学,而机器视觉系统是研究“看了之后如何用”的科学。
计算机视觉与机器视觉系统的问题是,前者太学术,后者太工业,因而一直至今在消费级市场缺乏好的商品。机器视觉系统的很多关键技术和基本原理多年前就较为成熟了,近年来的进展要紧集中在工程化,比如GPU和视觉计算加速器的浮现解决了计算量问题。但与此同时,要想把视觉技术完成真实商品落地,中间还有许多其它问题。
机器视觉系统技术在消费级市场最早的尝试是微软的Kinect。2010年,微软联合深度摄像头技术方案带来方PrimeSense正式对外推出Kinect,利用骨骼捕捉技术,Kinect能够捕捉游戏玩家的骨骼动作,从而让游戏玩家能够不接触屏幕即可玩游戏。在Kinect之后,华硕、Intel、谷歌和苹果也相继在深度摄像头的运用场景上跟进,一切都看上去往好的方向进展。
但深度摄像头作为独立商品,市场化难度系数颇大。例如Intel在13年在开发设计者会议上宣布,将推出自身的微型深度感知模块,华硕、戴尔、惠普、联想等多家PC生产厂家都将从2014年下半年开始在商品线中部署这款深度感知模块。而两年多过去了,曾经预言的一体式深度摄像头的商品迟迟未见。
乐发vll 那么,处在计算机视觉和机器视觉系统交叉部分的深度摄像头,应该如何打开消费级市场?
深度摄像的瓶颈
乐发vll 深度摄像头也称RGBD摄像头。我们常用的摄像头是RGB摄像头,单一个摄像头便能感知彩色可见光信息内容(Red、Green、Blue),而RGBD摄像头是在我们常见的RGB摄像头基础上,提升了深度信息内容。
深度摄像头猎取图像方式分为主动式猎取和被动式猎取。二者的要紧区不集中在观测传感器是不是主动向环境发出探测光。如大疆精灵4上的双目视觉就是被动式猎取深度图像,其技术特点是摄像头不主动向环境中发射能量,而利用两个之上摄像头计算特征点的坐标差得出感知环境中目前有能力得到信息内容,这一方式与人类双眼得到时差的方式最为相近,但最大的弊端在于限于目前的技术,目前的识别精密度还不高,过于依靠光线,而且无法处理特征不明显的场景,因而强光暗光都会造成深度计算的失效。
主动式猎取所采纳的方式则是从蝙蝠等生物上查找灵感,利用主动发射探测光利用计算猎取深度图像。这当中又分为三类:“RF-modulatedlightsourceswithphasedetector”、“Rangegatedimagers”、“DirectTime-of-Flightimagers”,如Kinect一代所采纳的PrimeSense就属于第二类,伴随着苹果购买PrimeSense,微软也在Kinect二代中改为微软自有技术,通常觉得二代采纳的是直截了当TOF的技术。
乐发vll 以Kinect的深度摄像头为例子,它包括了一个红外投射器、一个RGB摄影头和一个红外感应器,由于深度摄像头自带灯源,而且是不可见的红外光,对我们的生活无任何妨碍。大概深度摄像头猎取景深信息内容就类似完美了,但也有他的弊端。由因而主动方式,两个同波段红外光会浮现干涉,造成两台一样的深度摄像头没有方法一起使用,而且受发射输出功率的妨碍,检验距离也会受到非常大妨碍。
市面上常见的深度摄像头,Kinect距离最远,但也必须最达到到12W的用电供给,拖一根配电线很是累赘。同时,深度摄像头还难以运用于户外,由于太阳中也有红外成分,会对主动红外光部分造成干扰。红外光关于玻璃情景,也无计可施,浮现无法探测距离的情况。
Kinect猎取的深度图像
困难中的尝试
Kinect一代售罄一空之后,对Kinect二代的关联更加严厉,这更加抑制了销售量;LeapMotion两年前由于销售情况不如预期,不得不解雇了10%的职员,切入虚拟现实;苹果购买了Primesense之后也不明白在盘算什么小九九,有分析称苹果打算放到iPhone上,这般我们拍照时就能拍出三维效果的了;另一边Intel则将目标对准了机器设备人无人机,比如小米的机器设备人SegwayRobot和昊翔的无人机TyphooonH。机器设备人和无人机正是这两年的大热商品,看上去Intel很有可能会成为赢家,但由于SegwayRobot和TyphooonH都还未正式发售,因而效果如何还有待检验。也便是讲,在消费级市场还没有一个特不成功的案例。
乐发vll IntelCEO科再奇展示运用了RealSense模块的的TyphooonH
乐发vll 而在国产,Intel的RealSense出来之后,给了国产一些创从业者的信心,因而催生了一批有关的创业企业,但目前成规模的运用也寥寥无几。
奥比中光是其中最早完成量产的,其深度摄像头与Kinect一样,要紧运用在一些电视游戏上;与奥比中光有直截了当竞争的是华捷艾米,只只是在商品量产上,华捷艾米的进度慢了一步;图漾的商品则正在预备量产时期中,瞄准的方向基础上些行业领域运用,大概对消费运用还在观望时期;格灵深瞳正在做运用在全自动驾驶汽车子上的深度摄像头;速感看好机器设备人;
乐发vll 机器设备人是目前受欢迎的运用行业,目前机器设备人的路径规划大多使用雷达,雷达尽管只能建立平面的深度图像,但市场上类似有公开商品,而且雷达的导航所用到的SLAM方案类似较为成熟,而视觉导航的SLAM方案则还很少见,iRobot是较早开始在其扫地机器设备人上使用SLAM方案,只是也不到1年时刻,因而想要在机器设备人上使用视觉避障与导航,看上去还必须一段时刻。
要解决的问题有哪些?
那么,深度摄像头消费级运用的春天何时才会到来?利用与有关从业人员的交流,我们感受到深度摄像头只是一个产业链中的一环,当他们在做深度摄像头的时候,有关的产业链上的工作中还有很多,比如芯片,比如后续的图像识别、视频分析这些。
“CV在消费行业落地的其中一个障碍依然支持高性能运算的低功耗低价位芯片选择太少,有限的几个也很难用。因而目前只能在工业行业,机器视觉系统本身是工业术语。在大消费行业我们倾向于叫embeddedvision(嵌入式视觉)。这一类商品基础上光、机、电、软件、算法一体,跨多个专业行业,对系统一体式的难度系数规定更高。”格灵深瞳技术人员如是说。
“要紧是芯片的处理能力、红外投影模组的分辨率提高。我自身更关注大批量生产制造的稳定性,由于这些零零配件装在一起,必须校正、标定等,这是一个挺大的挑战,特不是对创业企业。”uArm机械设备臂创始人邓世韬是这样说的。
乐发vll “单从机器设备人行业来说,机器视觉系统有非常大一块儿必须解决的问题是,目前在产业上游的关键传感器和下游的机器设备人落地运用中间存在一定的断档。也便是我们看到的国产有厂家专门搞摄像头,雷达这般的元器件,专门有厂家做机器设备人整机,然而几乎没有一个成熟的视觉技术方案能够把不同的传感器串联起来,做成一个能够商用的统一的方案。
乐发vll 机器设备人是个复杂的系统,机器视觉系统也是机器设备人上一个复杂的部件,利用目前有的技术,类似证明单纯的依靠单一的传感器是无法在目前有机器设备人上较好的完成各类作用的。
也便是讲,在机器设备人上,必须有雷达、超声波、摄像头、三维传感器配合在一起,才很有可能完成各类复杂的作用和任务。而目前的机器设备人产业的现状是,大伙儿各自低头研发自身的关键元件,使得下游的机器设备人厂家变成了机械设备式的一体式商,从讯飞拿语音,从视频门户拿内容,从东莞拿移动底盘公模这些,视觉上边,也出现出零星的进展态势。
我们觉得,机器设备人在下一步的进展中,必定会浮现一两套整体的标准一体式方案,类似PC时代的windows操作系统和手机时代的IOS操作系统一样。”速感科技创始人陈震如是说。
乐发vll “视觉计算处理器:由于视觉计算数据量和算法复杂度很高,通用的CPU、GPU和DSP处理器芯片都不够强大,而专用ASIC又不够灵活,最好必须有一个像GPU为Graphics进行加速一样,浮现一种能为Vision带来强大计算能力的VPU芯片。
三维摄像头作为一种计算视觉用的光学商品,从演示到工程样机、再从工程样机到量产必须跨过的工程技术鸿沟比通常的拍摄类光学商品要大很多。比如光学器件的一致性挑选和光学参数的标定校正,便是一个单独的研究方向。
商品的多样性:作为一种光学商品,天然存在商品外形尺寸多样性的问题,比如就最基础的检验距离指标来讲,就很难做到远近兼顾,必须在最大距离和最近盲区之间作出组合折衷。不同的运用场景必须不同外形尺寸的商品进行适配和优化,因而对商品和技术方案的可伸缩性规定就很高,必须有多种不同外形尺寸的商品去满足不同的运用要求。
乐发vll 人工智能:基于三维视觉数据通常基础上为了完成更高级的识别和分析能力,也便是对三维视觉数据使用的能力规定也很高,必须更聪慧的大脑来使用更全面的视觉数据。”图漾创始人费浙平如是说。
“机器视觉系统在消费市场落地,技术上是人工智能技术和机器设备人硬件合理融合的问题,有两条路:
1、自上而下。以人工智能技术运用为主,规定机器设备人硬件尽很有可能符合人工智能技术工程化的标准。这意味着,商品得提升传感器,以保障智能算法数据供给,得提升成本,有良好的计算资源让复杂的智能算法“跑”起来。还意味着商品具有不稳定性,人工智能技术以概率为主,商品作用依靠人工智能技术的比例越大,商品作用越不稳定。机器视觉系统运用里边,人脸检验是很稳定的,但遇到黑人也难打包票。
乐发vll 2、自下而上。以机器设备人硬件为主,在作用上运用人工智能技术辅助。这意味着,商品较为可靠,但同时也失去了一些自动化的特性。当商品必须某些自动化的作用时,要花费大量人力针对某个“智能算法”做移植,将本来在不稳定环境中运行的算法运用在可控、高效而且低成本的嵌入式环境中,这点让很多专注理论算法的技术员头疼。
乐发vll 机器视觉系统技术落实在商品上,有时候是自下而上做商品的过程中,给了“智能算法”太多的束缚,大伙儿总是优先考虑成本和稳定性,而不是技术运用本身。我们从人工智能行业出来做机器设备人,希望两者做个折衷,以自上而下的愿景给智能技术找一个市场立足点。市场对智能商品要求的不明晰,也是机器视觉系统难落地市场的一个大的要素。”AICRobo智能机器设备人系统架构师佘元博如是说。
乐发vll 能够看出,芯片的运算能力和成本是大伙儿觉得机器视觉系统在消费级市场落地的主要妨碍要素,其次是一体式方案和人工智能技术。但由于消费电子关于量和价钱和技术成熟度均有着较高规定,很有可能要到这些配合的产业链环节都成熟之后,消费运用的春天才会到来。