没有实体办公室,依靠AR技术实现全息会议
不必再做低头族,超轻量AR眼镜呈现所有虚拟界面
无需再想象历史,雅典卫城破损的神庙便可恢复如初
……
这些科幻电影频频出现的画面,正在描绘一幅完整的AR时代生活画卷。
随着人工智能领域第三次浪潮推进,前沿科技不断落地,以往许多难以攻克的难题如今迎刃而解,科幻电影中的种种场景,正在逐渐成为现实。
悉见科技就是这样一家聚焦于混合现实的AI公司。就在8月,悉见科技刚刚公布了其混合现实大脑xarc.ai,完成了其“云、软件、硬件”的产品架构。基于此架构,悉见科技将通过空间智能引擎及室内外高精地图,实现物理世界的数字拷贝及混合现实交互。
最近,悉见科技创始人兼CEO刘洋在由中国计算机学会、中国图象图形学学会、IEEE Computer Society等举办的「第8届国际虚拟现实与可视化会议」及「中国虚拟现实大会」上,受邀出席并演讲。在演讲中,刘洋对人工智能领域的未来作出了判断和预测,并首度完整阐述了悉见科技混合现实大脑xarc.ai的系统架构及商业价值。
以下为核心观点提炼。
【人工智能的三次浪潮】
人工智能是人类终极愿望和本质诉求的阶段性产物,一共经历了三次浪潮。
第一次浪潮:从二十世纪五十到七十年代以逻辑主义(符号主义、逻辑推理、定理证明)为核心;
第二次浪潮:八十年代到二十世纪末以连接主义(知识工程、专家系统、神经系统)为核心;
第三次浪潮:以2006年Hinton提出的深度学习技术、以及2012年ImageNet竞赛在图像识别领域带来的突破为标志性起点的第三次浪潮,不仅在技术上取得重大突破,在商业界也因其可以解决具体问题,而呈现出欣欣向荣的发展态势。
【第三次浪潮中的三次发展】
如果继续深入了解第三次人工智能浪潮,会发现随着算法与算力的快速发展与数据的指数级累积,从2005年左右开始:
首先出现了以文本与语音为数据的一维智能公司,如Google、百度、科大讯飞等;
随后以图片和视频为数据的二维智能公司,如旷视、商汤、云从等也崭露头角;
生活在三维空间中的我们,自然期待更多优秀的三维智能企业出现。在自动驾驶和机器人行业已经出现不少佼佼者,如Waymo、drive.ai、蔚来汽车等,用三维视觉与高精度图服务赋能给汽车和机器人,解放人在通勤和工程作业中的劳动力。
但我们所工作和生活中的绝大场景,如办公室、商场、景区、展馆等,无法用昂贵笨重的毫米波雷达等设备解决空间计算问题,这就需要消费级的三维智能技术,也是悉见的创立初衷。目前,我们正向三维智能时代迈进。
【三维智能时代的技术基础】
上文提到的三维智能时代的技术核心不是凭空产生的,而是多学科交叉融合产生的化学反应,包括计算机视觉Computer Vision领域的几何算法、计算机图形学Computer Graphics、和人工智能Artificial Intelligence中Deep Learning、神经网络的发展,其他还包含芯片技术的发展、云计算的发展、异构计算的发展等等。
如果用一个词来总结发展趋势,就是“融合”,包括传统几何算法与深度学习方法的融合、多传感器的融合、软件云服务与硬件的融合(包括算法的硬件化/芯片化)、以及与具体应用的结合,比如AR/VR/MR、AGV、自动驾驶、机器人等等。
【三维智能时代的三大特征】
在三维视觉与空间计算驱动的三维智能时代,有三大特征,一是物理世界的数字化,二是数字世界的物理化,三是混合现实的智能化。
· 物理世界数字化
物理世界数字化很容易理解。有一种说法,互联网和移动互联网的下一代是物联网,万物互联。我们通过各种各样的传感器,将工作和生活的场景进行量化和数字化。
智能家居就是一个非常典型的场景,智能台灯、智能开关、智能音箱、智能监控、智能电视、智能路由器、智能空调、智能窗帘,人们通过各种各样的传感器,把物理的场景进行采集和数字化,同步到云端。
不仅如此,我们也在对自身进行量化和数字化,智能手环、智能手表、智能眼镜、智能指环、智能衣服,我们跑步、走路、心跳、睡眠、体重等等,都在产生大量的数据,我们通过这些数字,来炫耀或优化自己的物理身体。
还有一种逐渐从工业界渗透到生活中的非常重要的物理世界数字化手段,统称三维建模:包括用专业设备进行的超大规模三维重建、中小规模的三维重建、以及游戏动画影视行业的CG建模,已经能达到以假乱真的地步,有人称这位CR,Cinema Reality,影视级真实。
· 数字世界物理化
通过物理世界的数字化,我们获得了非常庞大的数字世界。从网页,Google、百度的索引数据库,到每个企业的业务数据。
我们在用什么样的方式跟数字世界打交道、我们如何感知和反馈数字世界?这就是数字世界的物理化的意义。
人有视觉、听觉、触觉、嗅觉、味觉,人类感知世界的方式都是通过感官获取到生物信号经由大脑的主观诠释,当物理刺激同时对不同感官进行刺激时人就会信以为真,所以要让人类感知数字世界,传感器的协同反馈非常重要。
例如电影《头号玩家》,电影中的角色在玩游戏时都有很强的代入感,因为电影所描绘的未来游戏体验,综合反馈了三种以上甚至四种五种感知的协同反馈。未来游戏不仅可以得到视觉听觉的反馈,通过特制服装,还可以体会到触感,当玩家被攻击时会有痛感刺激。但这些还停留在科幻电影中的想象。
在现实世界,我们和数字世界交互、建立物理和数字链接的方式还很简单,以PC和手机为主。扫福字、扫红包就是很典型的体验,通过图片和平面的扫描,把数字世界的相关信息激活,通过手机屏幕显示出来。
因为技术的限制,我们从微信、微博、头条、美团、滴滴,到抖音、快手、爱奇艺,跟数字世界打交道都是通过五寸的小屏幕。得到数字世界反馈的我们,却也变成了“低头族”,反倒大大减少了与物理世界的联系,冷落了身边的人和事。
从行业发展看,智能手机行业经过十年的发展到达了平台期、存量期。在微创新、同质化的环境下,基于触屏的手机交互已经没有太大创新空间,千篇一律“齐刘海”的设计之下,实际上是物理世界与数字之间难以打破的壁垒。
· 混合现实智能化
打破物理世界与数字世界之间的壁垒,能够同时对视觉和听觉沉浸式反馈,就是混合现实智能化,也就是三维视觉和空间计算要解决的问题。
具体到技术层面,需要解决以下四个问题。
第一个是三维感知。当一个人到达一个全新地方,第一件事做的就是三维感知,机器学习同样需要如此,对三维场景中物体表面纹理和形状的数字采样以及深度估计。这里涉及到了多传感器的快速标定、多目视觉和惯导融合、多传感器融合比如雷达、全景相机等、还有基于事件相机的SLAM。
第二件事,当我们对周围空间进行感知后,要确定与环境之间的实时动态关系,这就是位姿感知。对相机或物体在三维空间中的位置和朝向的计算和实时追踪,也就是我们常说的六自由度重定位、VIO、SLAM、Sematic SLAM等等。
第三件事,是上文提到的三维重建,对三维场景或物体的形状和表观模拟以及运动估计和动态重建,这里的课题包括地图构建和持久化、地图优化、多地图对齐和融合、通过SLAM进行稀疏3D重建、SFM(Structure From Motion,从运动恢复结构)、结合深度数据的稠密3D重建、深度学习优化的3D重建等等。
第四件事,进一步的目标,就是三维理解,你要知道这个场景中哪里是桌子、哪里是椅子、哪里又是人,所以要做平面语义分割、3D语义分割、动态的目标分割与追踪、实时的语义内容检索以及对位姿感知的反馈优化。
【悉见混合现实大脑xarc.ai】
悉见在探索三维智能的过程中,也发布了相应的混合现实大脑平台xarc.ai。
在这个过程中我们总结出了一套系统架构,可以高效的解决各行业对三维视觉和空间计算的需求,总共分为五层,从下到上分别是物理层(Physical Layer)、数字层(Digital Layer)、引擎层(Engine Layer)、终端层(Device Layer)、应用层(Application Layer)。
物理层就是我们的真实世界,
数字层是对真实世界的数字化采集和重建,
引擎层是三维混合现实数据存储、检索、渲染和交互的驱动平台,
终端层是用户与数字层交互的入口设备和计算平台,
应用层是跑在混合现实系统上的所有应用,就像手机里安装的各种各样的APP。
在数字层,我们提供高精地图采集专业设备,可以做到厘米级到毫米级的精度、十万平米每天的高效率,而且支持端到端的定位网络生成和上千种物体的智能识别。
在引擎层我们提供了整套的自动化建图工具、混合现实场景编辑工具以及适配多种设备的终端SDK。
在终端层我们已经研发和量产了多款AR和AI眼镜,包括去年量产的首款45°视场角、166g最轻亮双目AR眼镜一体机X1系列、今年量产的第二代强性能AI眼镜XMAN系列用NPU进行人脸识别、车牌识别、空间定位、以及即将发布的代号M消费级AI眼镜。同时悉见自主研发视觉加速芯片XVPU也对我们各代硬件设备的智能化和小型化起到了关键的作用。
【结语】
随着摩尔定律、库兹威尔定律下算力与数据的指数级增长,传统计算机视觉算法与深度学习相结合加速了奇点临近。
目前悉见接收到了多个行业的、万亿级三维视觉需求的快速增长。我们认为,如同PC时代和智能手机时代,各行业及消费级应用生态会随着基础技术平台和工具的完善快速丰富起来,悉见将与更多合作伙伴,一起迎接三维智能时代的到来。
焦点新闻网免责声明:
凡本网注明 “来源:XXX(未知)等(非焦点新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在30日内与以下联系方式进行沟通:联系电话:15922557075(加微信请注明具体事宜)QQ:1579130097 邮箱:1579130097 @qq.com
如未与焦点新闻网本部进行有效沟通的事宜,本网将视同为未曾提前联系,并不能给予答复、解决。