菜单

计算机视觉如何寻找突破口,计算机视觉界CV牛人牛事

2019年6月1日 - 美高梅mgm02233.com
计算机视觉如何寻找突破口,计算机视觉界CV牛人牛事

图片 1

图片 2

CV人物1:Jianbo Shi史建波毕业于UC Berkeley,导师是Jitendra
Malik。其最有影响力的研究成果:图像分割。其于2000年在PAMI上多人合作发表”Noramlized
cuts and image
segmentation”。这是图像分割领域内最经典的算法。主页:www.cis.upenn.edu/~jshi/
和www.cs.cmu.edu/~jshi/

又一年ICCV论文提交截止,ICCV2019的官方推特也在上周末第一时间公布了本届会议的论文投递情况。根据官方消息,2019年共收获4328篇论文,与上一届2143篇相比,数量多出了将近一倍。

近日,由雷锋网 &
AI掘金志主办的「第二届中国人工智能安防峰会」在杭州召开。

图片 3clip_image002_thumb.jpgCV人物2:Kristen
Grauman毕业于MIT,导师是Trevor Darrell。其最有影响力的研究成果:Pyramid
Match Kernel,用于图像匹配。她和Darrell在2005年CVPR合作发表了”The
Pyramid Match Kernel: Discriminative Classification with Sets of Image
Features”。金字塔匹配核函数可快速搜索两个特征集合之间匹配的特征,可应用于图像匹配、物体识别,是该领域经典算法之一。2011年Marr奖得主。主页:www.cs.utexas.edu/~grauman/图片 4clip_image003_thumb.jpgCV人物3:Irfan
Essa现任教于Georgin
Tech佐治亚理工大学,毕业于MIT,其最有影响力的研究成果:人脸表情识别。Essa和Alex
Penland 在1997年PAMI合作发表了”Coding, analysis,interpretation,and
recognition of facial expression”,
结合了几何模型和面部肌肉无力模型,用来描述脸部结构。主页:www.ic.gatech.edu/people/irfan-essa图片 5clip_image005_thumb.jpg
CV人物4:Matthew Turk毕业于MIT,最有影响力的研究成果:人脸识别。其和Alex
Pentland在1991年发表了”Eigenfaces for Face
Recognition”.该论文首次将PCA(Principal Component
Analysis)引入到人脸识别中,是人脸识别最早期最经典的方法,且被人实现,开源在OpenCV了。主页:www.cs.ucsb.edu/~mturk/CV人物5:David
Lowe毕业于斯坦福大学,导师是Thomas
Binfold,最有影响力的研究成果:SIFT。他是SIFT特征点检测的发明人。由于SIFT具有对于图像平移、旋转和尺度变化不变性的优点,使得SIFT成为近十年来最流行的图像特征点检测方法,被广泛用于图像匹配、物体识别、分类等领域。主页:
Fua毕业于Orsay,导师是O.D.Faugera。最有影响力的研究成果:立体视觉。其在1993年发表了”A
parallel stereo algorithm that produces dense depth maps and preserves
image
features”,提出了利用相关性来估计dense深度图的快速并行立体视觉算法,是立体视觉领域内经典算法之一。主页:

Van Gool毕业于Katholieke Universiteit
Leuven.最有影响力的研究成果:图像特征点检测和摄像机标定。Gool等发蒙的Surf(speeded
up robust
features)是除SIFT外,应用最广泛的特征点检测算法,surf具有提取速度更快、维度更低的优点,也被广泛用于物体检测、识别等。Opencv开源。Marc
Pollefeys, Koch和Goolz 1999年IJCV上发表了”self-calibration and metric
reconstruction inspite of varying and unknown intrinsic camera
parameters”,是摄像机自标定领域内最经典论文,并获1998年Marr奖。主页:
Irani毕业于Hebrew大学,最有影响力的研究成果:超分辨率。她和Peleg于1991年在Graphical
Models and Image Processing发表了”Improving resolution by image
registration”,提出了用迭代的、反向投影的方法来解决图像放大的问题,是图像超分辨率最经典的算法。我在公司实现的产品化清晰化增强算法就参考了该算法思想哈哈。主页:
Jean Ponce毕业于Paris
Orsay,最有影响力的研究成果:计算机视觉教育、物体识别。他和David
Forsyth合写的”Computer Vision: A Modern
Approach”被视为现代计算机视觉领域最经典教科书之一。其近年来的研究重点是物体识别,是Spatial
Pyramid
Matching算法发明人之一,比起之前广泛使用的bag-of-words方法相比,该方法考虑了一些局部特征之间的空间关系,因此更有效地描述物体特征。是目前最普遍使用的算法之一。主页:
Andrew
Blake毕业于Edinburgh,最有影响力的研究成果:目标跟踪、图像分割、人体姿态跟踪与分析。他是世界知名CV专家,两次荣获ECCV最佳论文奖和1次Marr奖。他和Michael
Isard在1998年IJCV中合写的”Condensation—conditional density propagation
for visual
tracking”,将粒子滤波器用于目标跟踪,该领域的经典论文。二人1998年合写的另一篇”Active
Contours”是图像分割领域经典算法,该算法用spline函数,通过最小化能量函数,是的样条逼近物体轮廓,在该算法基础上,衍生出了著名的Active
shape
model。Blake领导的微软剑桥研究院在人体姿态跟踪与分析上去的突破,用于Kinect中。主页:
Antonio Criminisi毕业于牛津大学,导师是Andrew Zisserman 和 Ian
Reid。最有吸影响力的研究成果:Image Inpaiting.他在2004年发表”Region
filling and object removal by exemplar-based image
inpainting”,该方法用于去除图像中大的遮挡物或小的刮痕,结合了采样纹理生成和结构传递的图像修补技术,获得不错效果。主页:
Paul
Viola毕业于MIT,研究领域:目标检测;最有影响力的研究成果:人脸检测;他和Michael
Jones在2001年CVPR发表了”Rapid object detection using a boosted cascade
of simple
features”,真正意义上解决了人脸检测的问题,并开启了boosting算法的一个时代,很多学者受到boosting
cascade算法的影响,扩展了该算法的应用领域,牛逼的影响力。主页:
Henry Rowley毕业于CMU,导师:Takeo
Kanade;研究领域:大规模图像识别和机器学习;最有影响力的研究成果:人脸检测;他使用人工神经网络用于人脸检测,该算法是Paul
Viola的boosting
cascade人脸检测算法出现前,最经典的人脸检测算法。主页:
Dorin
Comaniclu毕业于Rutgers;最有影响力的研究成果:目标跟踪、图像分割;他在2000年发表了”Real-time
tracking of non-rigid objects using mean shift”。该算法首次将mean
shift用于目标跟踪,并在2002年PAMI发表了”Mean shift: A robust approach
toward feature space
analysis”,并将Meanshift拓展应用于图像分割中。主页:
Henry Schneiderman毕业于CMU,导师:Takeo
Kanade;研究领域:目标检测和识别;最有影响力的研究成果:目标检测;他在2000年CVPR上发表了”A
statistical method for 3D object detection applied to faces and
cars”。该算法采用多视角训练样本,可用于检测不同视角下的物体,如人脸和车,是第一个能够检测侧脸的算法。他创建了PittPatt公司,后被Google收购。主页:
William
T.Freeman毕业于MIT;研究领域:应用于CV的ML、可视化感知的贝叶斯模型、计算摄影学;最有影响力的研究成果:图像纹理合成;Alex
Efros和Freeman在2001年SIGGRAPH上发表了”Image quilting for texture
synthesis and
transfer”,其思想是从已知图像中获得小块,然后将这些小块拼接mosaic一起,形成新的图像。该算法是图像纹理合成中经典中的经典。主页:
Feifei Li李菲菲,毕业于Caltech;导师:Pietro Perona;研究领域:Object
Bank、Scene
Classification、ImageNet等;最有影响力的研究成果:图像识别;她建立了图像识别领域的标准测试库Caltech101/256。是词包方法的推动者。主页:
Malik毕业于斯坦福大学;导师:Thomas
O.Binford;研究领域:轮廓检测、图像/视频分割、图形匹配、目标识别等;最有影响力的研究成果:边缘检测、图像分割和形状匹配;Malik培养了众多牛人,牛人的导师,你说牛不牛。培养了Alexie
Efros, Jianbo Shi, Paul Debevec, Pietro Perona, Serge J.Belongie, Yair
Weiss等知名专家。主页:
Efros毕业于Berkeley大学;导师:Jitendra Malik;研究领域:Qualitative
Reasoning for Image Understanding、Building the Visual
Memex等;最有影响力的研究成果:图像纹理合成;他在1999年ICCV发表了”Texture
Synthesis by non-parametric
sampling”。该论文将MRF引入到纹理合成中。该方法最大限度保留了纹理的局部结构。主页:
Zisserman毕业于剑桥大学;最有影响力的研究成果:视觉几何、目标识别、可视化搜索;他牛逼了,三次获得Marr奖。是CV界权威中的权威。搞CV的人没读过他的多视几何学一书,枉为搞CV的。我2007年起,花了2年时间阅读、编码实现了其中所有两视几何学内容。主页:
D.Reid毕业于牛津大学;最有影响力的研究成果:目标跟踪;他在2007年PAMI发表了”MonoSLAM:
real-time single camera
SLAM”,是跟踪和机器人导航领域经典论文。在2011年CVPR上,和Ben
Benfold发表了”Stable Multi-Target Tracking in Real-time survillance
video”。主页:
L.Yuille毕业于剑桥大学;导师:S.W.Hawking;最有影响力的研究成果:人脸检测和跟踪;他在1992年IJCV发表了”Feature
Extraciton from Faces Using Deformable
Templates”.该论文首次用可变形模板来描述人脸的特征,如眼睛、嘴巴等。主页:
Forsyth毕业于牛津大学;最有影响力的研究成果:计算机视觉教育、三维重建、图像与语义信息;他与Jean
Ponce合写的”Computer Vision: A Modern
Approach”是经典CV教材啊,当初我可是仔细研读、编码实现了的。1993年因论文”Extracing
Projective Structure from Single Perspective Views of 3D Point
Sets”,而获得Marr奖。主页:
Nevatia毕业于斯坦福大学;导师Thomas
O.Binford;最有影响力的研究成果:物体几何形状描述,人体检测与跟踪;他的关于三维物体的广义圆柱体形状的描述,是早期物体识别经典研究方法之一。主页:
Debevec毕业于Berkeley大学;导师:Jitendra
Malik;研究成果:HDR、IBR;他是知名的将CV和CG结合研究的牛人。很多成果应用于好莱坞电影中。他发明了light
stage人脸捕捉重建技术,是基于他在2000年SIGGRAPH上的研究成果发展起来的,被用于AVatar等电影。他因此技术,和合作者获得2009年奥斯卡科学和工程奖。主页:
Kriegman毕业于斯坦福大学;导师:Thomas
O.Binford;最有影响力的研究成果:人脸识别;他在1997年PAMI发表了”Eigenfaces
vs. fisherfaces: recognition using class specific linear
projection”,将Fisher线性判决用于人脸识别。主页:
J.Black毕业于纽约大学;最有影响力的研究成果:人的姿态估计和跟踪;他在2000年ECCV上发表了”Stochastic
tracking of 3d human figures using 2d image
motion”,从单个视频中估算和跟踪人体各个部分的三维姿态。2010年,他因此论文获得ECCV
Koenderink奖。主页:
Tomasi毕业于CMU;导师Takeo
Kanade;最有影响力的研究成果:1998年ICCV发表的双边滤波”Bilateral
filtering for gray and color images”。2000年IJCV发表的”The earth mover’s
distance as a metric for image retrieval”,该论文将EMD(earth mover’s
distance)用于度量由不同图像形成的分布,如颜色、纹理,之间的相似程度,并依据此来实现图像检索,检索结果优于分布直方图。目标跟踪,著名的K-L-T
tracking算法中的T就是Tomasi。主页:
S.Davis毕业于马里兰大学;最有影响力的研究成果:视频监控;Davis等人实现的W4实时视频监控系统,是最早的能够实时户外人体检测、跟踪和行为分析的视频监控系统。主页:
Pollefeys毕业于Katholieke Universiteit
Leuven;做摄像机标定的人不知道他,我就鄙视你了。Pollefeys,Koch和Gool在1999年IJCV上发表了”Self-Calibration
and metric reconstruction inspite of varying and unknown intrinsic
camera
parameters”,是摄像机自标定最经典论文,因此获得1993年Marr奖。2007年俺仔细学习了其主页提供的CV的ppt课程。主页:
Richard Szeliski毕业于CMU,导师Takeo Kanade和Geoff
Hinton。其编写的这本书不错<Computer Vision: Algorithms and
Applications>,详见

ICCV由IEEE主办,全称为IEEE International Conference on Computer
Vision,即国际计算机视觉大会。与计算机视觉模式识别会议CVPR和欧洲计算机视觉会议ECCV并称计算机视觉三大顶级会议。ICCV论文数量的翻倍,也能看出近年来计算机视觉的发展有多么迅猛,无论是国内还是国外,都诞生了很多一批专注于计算机视觉的企业,如旷视科技、商汤科技、极链科技Video++、依图科技等优秀的初创AI企业,微软、阿里巴巴、百度等大厂。

峰会现场,香港科技大学教授,CVPR 2022、ICCV
2011大会主席,Altizure创始人权龙教授发表了题为《三维视觉重新定义人工智能安防》的演讲。

from:sigvc

计算机视觉的爆发

权教授表示,人工智能的核心是视觉,视觉定义了智能安防,但现在的视觉仍局限在二维识别层面,未来三维视觉重建将会成为最重要的任务,
它也将重新定义智能安防。

图片 6

权教授也谈到,现在计算机视觉本质上是大数据统计意义上的分类与识别。

1998年到2012年,十几年来,卷积神经网络的架构还是一样的,但是它的内部发生了很大的变化,而发生这些变化有亮点非常重要:当下因为深度学习技术的发展,人工智能变得愈加火爆,计算机视觉作为人工智能的一个领域,也逐渐被企业所重视。不过当前计算机视觉的研究和应用主要集中在“识别”上,“识别”只是计算机视觉的一部分,如果要去做一些交互和感知,必须先恢复三维,所以在识别的基础上,下一个层次必须走向“三维重建”。

“我们的终极目标是对图像的理解,也就是认知,但当前的计算机视觉只处于感知阶段,我们并不知如何理解,计算机视觉一直是要探索最基础的视觉特征,这一轮视觉卷积神经网络CNN本质上重新定义了计算机视觉的特征。但人类是生活在三维环境中的双目动物,这使得人类生物视觉的识别不只是识别,同时也包括三维感知与环境交互。”

一.英伟达研发了GPU,GPU最早是为游戏而不是人工智能诞生的。

“因此我们要和三维打交道,二维识别所能做的事,在当前众多复杂场景中,是远远不够的。但三维重建不是最终目的,而且是要把三维重建和识别融为一体。”

二.华人学者、斯坦福大学教授李飞飞创建了ImageNet,她把数百万张照片发到了网络上并发动群众做了标注。

以下为权龙教授的现场演讲内容,雷锋网作了不改变原意的编辑及整理:

至今,在2012年训练AlexNet模型需要使用两块GPU,花费6天时间,到今天做同样的事情只需要一块最新GPU,十几分钟就能搞定。

感谢雷锋网的邀请,今天我主要分享下现阶段计算机视觉的现状与未来发展方向,以及三维视觉在人工智能安防中的应用。

计算机视觉与三维重建

我们知道,现在AI安防的核心,本质上是计算机视觉,而计算机视觉分为两大部分,分别是识别和重建。

图片 7

“识别”是现在非常热门的方向,相比而言,大家对“重建”的理解却并没有那么透彻。我们需要知道这一点,计算机视觉不止局限于识别,三维重建在其中扮演的角色甚至更为重要。

三维重建指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。

这是三维重建和安防融合的实际案例:

上世纪80年代左右,计算机视觉有了最初的发展。那个年代基本所有的计算机视觉研究都以D.Marr的研究为理论依据。他的可计算数学模型都是以edges为主的边缘提取。有了edge之后,再把它高层话后的线段元做简单的统计分类或者三维重建。

图片 8

它从外部世界的图像逐步产生对景物的三个层次的描述:

图片 9

1.初始简图:这是最基本意义的灰度变动的局部几何性质,以线条勾画出的草图形式出现。

图片 10

2.二维半简图:该图主要描述物体可视面的表面方向和观察点到表面的距离。

图片 11

3.三维模型表示:这是物体形状的全部而清晰的描述。也是D.Marr教授的视觉计算理论对计算机视觉研究的最杰出的贡献。

这些景物都是由三维构建,我们把实时视频投影到三维,用户在界面上也可以“前、后、左、右”拖动操作。

当前,每个人都在研究“识别”,但是识别只是计算机视觉的一部分,真正意义上的计算机视觉要超越识别,感知三维环境,做到交互和感知,就需要把世界恢复到三维。人类可以通过眼睛得到有深度的三维信息,但获取深度信息的挑战很大。它本质上是一个三角测量的问题,第一步需要将两幅图像或两只眼睛感知到的东西进行匹配,也就是“识别”。但这里的“识别”是有标注情况下的识别,是通过两幅图像之间的识别,没有数据库,不仅要识别物体,还要识别每一个像素,所以对计算机要求非常高。

接下来我要讲的是当前计算机视觉存在的问题,以及为何三维视觉将重新定义计算机视觉,并且重新定义人工智能安防。

计算机视觉:机遇与挑战并存

人工智能的本质上是让计算机去听、看、读,在所有的信息里面,视觉信息占了所有感官的80%,所以视觉基本上是现代人工智能的核心。

伴随着人工智能产业升温,计算机视觉行业有望迈向新的发展阶段。据专业机构预测,2016-2020年中国计算机视觉市场将维持20%的增长率,远高于全球的8.4%平均水平,中国计算机视觉产业将迎来新一轮爆发式增长。虽然整个计算机视觉领域迎来了前所未有的关注和接踵而至的投资热潮,这些既来自于风险投资、互联网公司和传统公司,还吸引了国家政府前所未有的关注,但在此过程中,挑战也依然存在,抛开计算机视觉产业链,上层为基础支撑层,包括人工智能芯片、算法技术和数据。中层为技术提供层。下层则是具体的场景应用。当前国内计算机视觉领域初创公司中,布局中上层的企业非常少,绝大多数企业都只是集中于中下游技术提供层和场景应用层,能打通全产业链的企业更是凤毛麟角。

对我们来说,其实并没有泛泛的人工智能,人工智能需要具体根据技术维度和场景维度,区分开来看,人工智能的发展、革命和应用落地,一定是取决于以及受限于计算机视觉发展、革命和应用。

举几个已经基本达到商业化的例子:

而人工智能安防也同样是伴随着计算机视觉的发展而崛起。

1.八九十年代的指纹识别算法已经非常成熟,在指纹的图案上面去寻找一些关键点,寻找具有特殊几何特征的点,然后把两个指纹的关键点进行比对,判断是否匹配。

2012年是非常重要的一年,当时在ImageNet比赛中,有团队用卷积神经网络CNN把图像识别准确率从75%提高到了85%,这件“非常小”的事情带动了这一轮深度学习之下的人工智能,所以我们也可把2012年称作是这轮以深度学习为代表的人工智能元年。

2.2001年基于Haar的人脸检测算法,在当时的硬件条件下已经能够达到实时人脸检测,现在手机相机里的人脸检测,都是基于它或者它的变种。

这件事再回到1998年,那个年代Yann
Lecun已经发表了卷积神经网络LeNet,这个网络呢,首先它输入的图像比较小,只黑白单通道32*32,只能识别出一些字符和字母;因为也没有GPU,所以当时整个网络也只有60万的参数。

3.基于HoG特征的物体检测,它和所对应的SVM分类器组合起来的就是著名的DPM算法。DPM算法在物体检测上超过了所有的算法,取得了不错的成绩。

到了2012年卷积神经网络复活出现了AlexNet。AlexNet和1998年LeNet的卷积神经网络相比,它的内部结构基本不变,但可输入的图像尺寸不一样:1998年的模型,输入尺寸为32*32,且只有一个通道。新的模型输入尺寸已经扩大到了224*224,而且有三个通道。最关键的是里面有了GPU,当时的训练用到了两块GPU,参数达到将近6000万。

但这种成功例子太少了,因为手工设计特征需要大量的经验,需要你对这个领域和数据特别了解,然后设计出来特征还需要大量的调试工作。另一个难点在于,你不只需要手工设计特征,还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎很难完成。

图片 12

小结:

这么多年来计算机视觉的卷积神经网络,算法和结构,基本的结构变化是很小的。

随着计算机视觉和深度学习的发展,自动驾驶、生物识别、视频识别、无人机等都迎来了发展的浪潮,但这些领域想要达到完全的商业落地,三维重建或许是一个很好的突破口,但是真正能发展到何种程度,还是得看企业对三维重建的重视与利用。

但1998年到2012年这十五年来发生了两件特别重要的事:一是英伟达研发了GPU;第二就是李飞飞创建了ImageNet,她把几百万张照片发到网络上并发动群众做了标注。也正是因为算力和数据,才创造了AlexNet的成就。

到了2015年,机器视觉的识别率基本超越了人类。其实人类在识别方面并没有那么强,我们的记忆非常容易犯错误。根据统计,人类在分类上的错误率达到了5%。而机器,从2015年之后你们看各种ImageNet在公开域数据集上的错误率已经远远低于5%。

但为什么ImageNet在两年前停止了比赛,因为现在比拼的基本上都是靠算力和数据。

2015年随着卷积神经网络下的人工智能技术的成熟,AI也到达了一定的巅峰,计算机视觉或者说更宽泛的安防市场也被重新定义。

也在这一时期,旷视、商汤这几家做视觉的公司进入了安防市场。

从2012年到2019年的7年间,所有的数据又都翻了一千倍,计算速度比以前快一千倍,模型也比以前大一千倍。2012年训练AlexNet模型需要使用两块GPU,花费两个星期;今天做同样的事情只需要一块DGX-2,十几分钟就能完成。

从整个模型的参数来看,2012年的AlexNet已非常可观,6000万的参数非常庞大,这个数字我们当时都不敢想象。到今天这个网络又要放大千倍,达到十亿级的参数量。但是从算法、架构来说,现在基本上都是标准的卷积神经网络,其实并没有太大的进步。

我们也可以想一下,计算机视觉里面的识别到底能够达到什么程度?其实它并没有那么强,它只是在一个大数据统计意义上的识别而已。

大家都听说过无监督学习,但无监督学习的结果和应用的场景并不是太多。现在可用的、做的好的也就是可监督的,也就是CNN。

我简要概括下,现在的计算机视觉就是基于卷积神经网络而来,整个CNN的架构非常简单,能做的事其实也没那么多,它提取了高维的特征,然后要结合其它方法解决视觉问题。

如果你有足够的数据并且能够明确定义你想要的东西,CNN的效果很好,但是它有没有智能?其实没有。

你说它蠢,它跟以前一样蠢。它能识别出猫和狗,但我们要知道猫和狗的分类都是我们人类自己定义的,我们可以把猫和狗分开,也可以把复杂的狗类动物进行聚合和分类,这些东西本质上来说并不是客观的,而是主观的。

我们做计算机视觉研究的理想,是让机器进行理解图像。如何让它进行理解?这非常的困难,直到现在也没有人知道它怎么去进行理解。现在它能做的,只能做到认知。我们研究计算机视觉的目的是得到视觉特征,有了视觉特征后才能开展一系列工作。

为什么视觉特征如此重要?在语音识别领域,语音的特征已经定义得非常清晰——音素。但如果我们拿来一个图像,问它最重要的视觉特征是什么,答案并不明确。大家知道图像包含像素,但像素并不是真正的特征。像素只是一个数字化的载体,将图像进行了数字化的表述。计算机视觉的终极目标就是寻找行之有效的视觉特征。

在这样一个拥有视觉特征前提之下,计算机视觉也只有两个现实目的,一个是识别,另一个是三维重建。

它们的英文单词都以“re”做前缀,说明这是一个反向的问题。

计算机视觉不是一个很好定义(ill-posed)的问题,没有一个完美的答案或方法。

这一轮的卷积神经网络最本质的一件事是重新定义了计算机视觉的特征。在此之前,所有的特征都是人工设计的。今天CNN学来的东西,它学到特征的维度动辄几百万,在以前没有这类网络的情况下是根本做不到的。

纵使CNN的特征提取能力极其强,但是我们不要忘记建立在CNN基础上的计算机视觉是单目识别,而人类是双目。我们的现实世界是在一个三维空间,我们要和三维打交道。拿着二维图像去做识别,这远远不够。

在双目视觉下,要包含深度、视差和重建三个概念,它们基本等价,使用哪个词汇取决你处在哪个群体。

传统意义上,三维重建是在识别之前,它是一个最本质的问题,三维视觉里面也要用到识别,但是它的识别是对同样物体在不同视角下的识别,所以说它的识别是更好定义(well-posed)
的一个识别,也叫匹配。

双目视觉对整个生物世界的等级划分是非常严格的。大家知道马的眼睛往外看,对角的部分才有可能得到一部分三维信息,但它的三维视角非常小,不像人类。鱼的眼睛也是往两边看的,它的主要视线范围是单目的,它能看到的双目视区也是非常狭窄的一部分。

人类有两只眼睛,通过两只眼睛才能得到有深度的三维信息。当然,通过一只移动的眼睛,也可以获得有深度的信息。

获取深度信息的挑战很大,它本质上是一个三角测量问题。第一步需要将两幅图像或两只眼睛感知到的东西进行匹配,也就是识别。这里的“识别”和前面有所不同,前面提到的是有标注情况下的识别,这里的“识别”是两幅图像之间的识别,没有数据库。它不仅要识别物体,还要识别每一个像素,所以对计算量要求非常高。

在生物世界里,双目视觉非常重要,哺乳动物都有双目视觉,而且越凶猛的食肉的动物双目重叠的区域越大,用双目获得的深度信息去主动捕捉猎物。吃草的或被吃的动物视觉单目视觉,视野很宽,只有识别而无深度,目的是被进攻时跑得快!

在这一轮的CNN之前,计算机视觉里面研究最多的是三维重建这样的问题,在CNN之前有非常好的人工设计的视觉特征,这些东西本质上最早都是为三维重建而设计,例如SIFT特征。而在这之后的“识别”,只是把它放在一个没有结构的图像数据库里去搜索而已。
由此可见,现代三维视觉是由三维重建所定义。CNN诞生之前,它曾是视觉发展的主要动力源于几何,因为它的定义相对清晰。

我们再来看一下当今的三维重建技术的现状和挑战。

三维视觉既有理论又有算法,一部分是统计,另外一部分则是确定性的,非统计,也就是传统的应用数学。

计算机视觉中的三维重建包含三大问题:一、定位置。假如我给出一张照片,计算机视觉要知道这张照片是在什么位置拍的。二、多目。通过多目的视差获取三维信息,识别每一个像素并进行匹配,进行三维重建。三、语义识别。完成几何三维重建后,要对这个三维信息进行语义识别,这是重建的最终目的。

这里我再强调下,我们要把三维场景重新捕捉,但三维重建不是最终的目的,你要把识别加进去,所以说最终的应用肯定要把三维重建和识别融为一体。

现在三维重建的主要挑战是,算力不够,而且采集也比较困难。我举个例子,我们安防场景识别一个摄像头比较容易,但如果实时重建N个摄像头的实景,这对算力要求非常高。这些限制也使得当前的单目应用比较多,但我认为,未来双目一定会成趋势。

在深度学习的影响下,三维重建已经取得了比较大的成就。CNN在2012年之后的几年内,对三维重建的影响不是很大。但是从2017年开始,CNN就对三维重建产生了重要的影响。在三维重建领域有一个数据集叫KITTI,从2017年,我们开始用三维卷积神经网络。

以前是把它作为一个跟识别有关系的二维CNN,更现代的双目算法都是基于完整的三维卷积神经网络。现阶段三维卷积神经网络的表现也非常强,给任何两幅图像,错误率只有百分之2到3。

现在计算机视觉覆盖的应用场景,被计算机视觉重新定义,但这些应用也受制于计算机视觉的技术瓶颈。

虽然计算机视觉对安防行业的推动作用很大,但基本也不外乎识别人脸、车、物体等应用,如果计算机视觉得到进一步发展,安防行业也将再度被重新定义。

而我认为,三维视觉将对安防产生非常深远的影响。

三维重建在安防领域的应用,第一个是大规模城市级别的三维重建。

图片 13

每个大型城市动辄都百万级的摄像头,把摄像头融合在这样的一个实景三维场景里,才可达到城市级管控的效果,这是AI安防最理想化的形态。

现在政府都在通过一张实景图对城市进行治理,这张图以前是二维的,但今后一定是实景的,是三维的。

我们港科大的三维视觉初创公司Altizure就是一家做城市级别的实景三维重建和平台企业,大规模重建有两方面非常有挑战性:

第一是因为它的数据量非常大,我们现在建模动辄百万级的高清图像,要有强大的分布式以及并行算法,几个星期才能做完。

第二就是可视化,一张实景图的展示也特别有挑战性,因为一张实景图数据量非常大,即便是在任何一个端口的浏览实景三维都是非常有挑战性的。

现时只有Altizure可以应对这个挑战。

我们做的一个典型案例就是为深圳坪山区布局了时空信息云平台,我们对坪山的大片住宅区域进行了三维重建,后台用户可在三维实景图像上进行“上、下放大“以及”前、后、左、右”拖拽移动,来查看区域实景。

后台用户也可用鼠标在三维实景图像中选取部分区域,然后这一区域的各个重点视频监控画面便在大屏幕中一一实时展示。坪山第一期项目的实时监控视频显示,与常规的视频监控后台呈现效果相似,总体更为传统一些。

而在二期和三期,我们开始可以把所有的视频在三维平台上进行展示。

现在深圳已经有很多区在布局这类实景三维立体时空信息平台。

有了这样的平台,不仅是视频,其实还有一些别的数据也是可以加进去应用。

这个总控系统,集成了景区的监控摄像,闸机,商店,wifi等公共设施,实时可视化人流、电瓶车位置。三维实景给景区总控和下一步游客的导览带来了便利。

下图是我们在广州做第一个案例,对历史建筑进行保护以及城市规划。

图片 14

Altizure实景三维视觉平台现在已经有180个国家的实景三维内容和30万专业用户。

图片 15

我们的香港科技大学计算机视觉实验室和初创公司Altizure
在全球引领视觉三维重建的研究与应用。我们的目的并不是为刷榜而刷榜,但在一些关键的三维榜单,我们从去年四月以来一直稳居榜首!

图片 16

最后总结一下,计算机视觉中的“识别”定义了智能安防,但现在的“视觉”和“识别”仍局限在二维,三维重建是未来计算机视觉中最为重要的任务,因此三维重建也将重新定义人工智能以及智能安防。

现在的视觉研究,同质化现象非常明显。

我们在八十年代就开始做人工智能了,今天的现状,有点像是历史重演,计算机视觉的本质跟以往并没什么差别,只是大家用的硬件工具不一样。

计算机视觉虽然正处于黄金时期
,但它的发展还是非常有局限性的,我认为,所谓的通用人工智能和通用计算机视觉还遥遥无期。

谢谢大家!

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图