別被2D的背景虛化給騙了
3維視覺相比于2維視覺,多了一個維度,可以實現(xiàn)更加正確的物體分割,合適精度的三維測量,三維數(shù)據(jù)的模型重建以及智能視覺識別和分析。上海圖漾信息科技有限公司徐韜解析, 2維圖像在復雜場景下由于缺少深度的信息無法正確分割物體。
一個例子是,以前榮耀出過一款雙攝像頭的手機,但并非用來做深度,僅是兩個不同攝像頭的集合,然后進行圖像優(yōu)化,效果是要把背景虛化,但這個其實是假的。它只是把背景模糊了一下,靠猜測背景和人是不一樣的物體,這個和深度沒有關(guān)系,也就是說還只是通過2D處理實現(xiàn)背景虛化,并非真正的3D。而目前智能視覺識別和分析大部分也仍用2D來做。
用3D做出的分割,去除背景和多物體分割都更精準。現(xiàn)在許多創(chuàng)業(yè)公司會利用微軟kinect進行現(xiàn)場3D建模。同時利用3D圖像進行面部識別的準確度更高。以上種種可以看出,3D視覺的確擁有巨大的優(yōu)勢。
3D傳感器市場格局
之所以3D視覺還沒有普及,因其技術(shù)不成熟且供應商僅少數(shù)幾家企業(yè)。徐韜說,3D圖像是在2D圖像的基礎(chǔ)上通過顏色渲染每一個點來代表不同的深度,深度圖相對傳統(tǒng)的平面圖還有很大的提高空間。此外,由于多了一維,其數(shù)據(jù)處理卻不只多一個數(shù)量級。在人工智能方面,如果用三維做分析,算法與計算量會有顯著的增長,這就需要有新的處理方法來應對,在目前大部分還在用二維圖形做處理的情形下,這也是一個挑戰(zhàn)。深度攝像頭的三種主要技術(shù)方法和代表公司分別為:一是單目結(jié)構(gòu)光,代表公司有蘋果(收購最大的結(jié)構(gòu)光技術(shù)公司PrimeSense)、微軟Kinect-1、英特爾RealSense、Google Project Tango等,目前可見的其他創(chuàng)業(yè)公司幾乎都沿用此技術(shù)路線。二是雙目可見光,代表公司LeapMotion。三是飛行時間法(TOF),代表公司微軟Kinect-2。
在國內(nèi),單目結(jié)構(gòu)光供應商有奧比中光科技、華捷艾米軟件,雙目結(jié)構(gòu)光方案有圖漾科技,TOF方案的有樂行天下科技。此外,有兩家上市公司也開始了內(nèi)部研發(fā)項目。不過,徐韜表示圖漾的3D傳感器技術(shù)更像是單目結(jié)構(gòu)光和雙目可見光兩種技術(shù)的結(jié)合,可獲得更高的圖像質(zhì)量,并且應用場景更廣,同時知識產(chǎn)權(quán)更加干凈。
“在光線不好的情況下,傳統(tǒng)的單路結(jié)構(gòu)光會有很大的問題,無法識別或者失效。而我們的產(chǎn)品可靠性更高,這一點在行業(yè)應用中占有優(yōu)勢。因為許多特定的行業(yè)對產(chǎn)品的可靠性要求非常高,有些競品在多設(shè)備情況下存在互相干擾無法協(xié)同,而我們在多設(shè)備條件下能夠協(xié)高工作。” 徐韜說道。最早是一些以色列的創(chuàng)業(yè)公司進行深度攝像頭的研發(fā),現(xiàn)在這些公司幾乎都被科技界巨頭收購。比如蘋果收購PrineSense,這家公司是深度攝像頭的民用化先鋒。收購后,不再對外供貨。微軟使用PrineSense技術(shù)做出了Kinect一代,Kinect-2采用內(nèi)部開發(fā)技術(shù),趨于封閉生態(tài)。谷歌則不會成為一項產(chǎn)品或技術(shù)的供應商,而在于推動應用開發(fā)。同樣Intel力推Realsense方案需搭配X86芯片使用??梢哉f巨頭的深度攝像頭都有為己所用的形態(tài)。徐韜認為,這種現(xiàn)狀留給了深度攝像頭創(chuàng)新型公司更大的市場空間,尤其在行業(yè)應用方面。
有望取代激光雷達 引發(fā)機器人及VR內(nèi)容應用革命
深度攝像頭最知名的消費級應用是體感攝像頭,如微軟XBOX游戲機的體感攝像頭Kinect。微軟的HOLOLENSE也大量采用了深度攝像頭。深度攝像頭最熱的領(lǐng)域是機器人,自動駕駛,AR/VR,智能安防,智能家居,消費娛樂等,它們對深度攝像頭有著非常巨大的需求。例如VR配備手勢識別和動作識別時用視覺做更多的捕捉,而AR對深度攝像頭的需求更大,因為要感知環(huán)境,與真實環(huán)境融合。聯(lián)想TANGO手機用深度攝像頭做AR應用,據(jù)悉已在小批量發(fā)貨,主打行業(yè)應用。
未來,可以利用深度攝像頭直接生成內(nèi)容,無需其他處理或用電腦生成。這充分解決了現(xiàn)在缺少優(yōu)質(zhì)VR內(nèi)容的短板,將帶來民眾直接拍攝的VR內(nèi)容的激增。智能安防領(lǐng)域,通過智能攝像頭分析人的行為是否在有潛在危害,在金融行業(yè)頗有用途,但對算法要求非常高,到目前為止,還沒有非常好的產(chǎn)品出現(xiàn)。另外,用來做視覺導航在目前大熱的領(lǐng)域包括機器人、無人機以及其他移動的場景,這是消費剛需。徐韜認為,現(xiàn)在機器人用激光雷達進行視覺導航,存在價格昂貴,信息缺失的問題。因為它只是在面上作掃描,獲得的信息并不完整,導航作用有限。深度攝像頭做視覺導航,被普遍認為是行業(yè)的發(fā)展方向。據(jù)介紹,目前已經(jīng)有具備一定技術(shù)研發(fā)能力的機器人公司開始用圖漾的3D傳感器做視覺導航。機器人的導航主要有無線定位、激光雷達、視覺導航、慣性導航以及超聲波等方式。隨著3D傳感器的發(fā)展,視覺導航有望成為最主流的方式。“我認為視覺導航是終結(jié)且最好的解決方法,但目前深度攝像頭還不成熟,因此激光雷達還有一定的空間,一旦3D傳感器技術(shù)成熟,那么激光雷達在機器人導航領(lǐng)域可能被秒殺。”再看看各方的動作,Intel正在推動深度攝像頭在電腦中的普及,Google正在嘗試深度攝像頭與平板的結(jié)合。此外手機公司對深度攝像頭小型化開始關(guān)注,創(chuàng)業(yè)公司則投入在硬件與移動設(shè)備的結(jié)合,利用深度測量能力的應用開發(fā)的創(chuàng)新。
深度攝像頭是技術(shù)門檻非常高的行業(yè),徐韜表示圖漾在掌握自有技術(shù)的同時,定位在專業(yè)的深度攝像頭供應商,針對不同行業(yè)推出不同版本,提供完整的技術(shù)支持做定制化方案。由于具備了一定的優(yōu)勢,也受到了資本市場的認可。隨著巨頭的積極布局以及技術(shù)的逐漸成熟,還有3-5年的技術(shù)爆發(fā)期,目前是一個很好的時間窗口。