
視覺是人類強大的感知方式。它為人們提供了大量關(guān)于周圍環(huán)境的信息,使人們能夠有效地與周圍環(huán)境互動。據(jù)統(tǒng)計,80%以上的人類從外部世界接收的信息是通過視覺獲得的,50%的大腦皮層參與視覺功能的運行。
芯片采購網(wǎng)專注于整合國內(nèi)外授權(quán)IC代理商現(xiàn)貨資源,芯片庫存實時查詢,行業(yè)價格合理,采購方便IC芯片,國內(nèi)專業(yè)芯片采購平臺。
有許多有趣的視覺發(fā)現(xiàn),比如螳螂蝦的眼睛可以檢測到偏振光。人眼和普通相機只能感知光的強度信息,而不能檢測光的偏振信息。昆士蘭大學(xué)的研究人員發(fā)現(xiàn),螳螂蝦的復(fù)眼(見圖1-2)可以檢測到偏振光。根據(jù)生物醫(yī)學(xué)和光學(xué)的理論知識,生物組織的特征與偏振信息有關(guān),因此螳螂蝦的眼睛可以診斷生物組織的病變。此外,蜻蜓和其他昆蟲有復(fù)眼結(jié)構(gòu)(見圖1-3)。蜘蛛有很多眼睛。青蛙的眼睛只能看到動態(tài)場景,狗對顏色信息的分辨率很低。
圖1-2螳螂蝦的眼睛
圖1-3蜻蜓的眼睛
那么,介紹生物視覺功能后,機器視覺是什么?
機器視覺是自動處理和報告圖像是什么的過程,即用于識別圖像中的內(nèi)容,如自動目標(biāo)識別。
機器視覺一般以計算機為中心,主要由視覺傳感器、高速圖像采集系統(tǒng)、特殊圖像處理系統(tǒng)等模塊組成。
根據(jù)David A.Forsyth和Jean Ponce計算機視覺的定義是利用幾何、物理和學(xué)習(xí)理論來建立模型,從而使用統(tǒng)計方法來處理數(shù)據(jù)。它是指在徹底了解相機性能和物理成像過程的基礎(chǔ)上,通過簡單個像素值的簡單推理,將多個圖像中可能獲得的信息整合成相互關(guān)聯(lián)的整體,確定像素之間的連接,以便相互分離或推斷一些形狀信息,然后使用幾何信息或概率統(tǒng)計來識別對象。
考慮到系統(tǒng)的輸入和輸出模式,機器視覺系統(tǒng)的輸入是圖像或圖像序列,輸出是描述。此外,機器視覺由特征測量和基于這些特征的模式識別兩部分組成。
機器視覺不同于圖像處理。圖像處理的目的是使圖像處理后更好。圖像處理系統(tǒng)的輸出仍然是圖像,機器視覺系統(tǒng)的輸出是與圖像內(nèi)容相關(guān)的信息。圖像處理可分為低級圖像處理、中級圖像處理和高級圖像處理。處理內(nèi)容包括圖像增強、圖像編碼、圖像壓縮、圖像恢復(fù)和重構(gòu)。
發(fā)展01機器視覺
圖1-4顯示了20世紀(jì)70年代以來機器視覺發(fā)展過程中的一些主題,包括數(shù)字圖像處理和積木世界,20世紀(jì)80年代的卡爾曼濾波器正則化,90年代的圖像分割,基于統(tǒng)計的圖像處理,以及21世紀(jì)計算攝像和機器視覺的深度學(xué)習(xí)。
圖1-4機器視覺發(fā)展過程中的一些主題
1.20世紀(jì)70年代
機器視覺始于20世紀(jì)70年代早期,被視為模擬人類智能并賦予機器人智能行為的感知組成部分。當(dāng)時,麻省理工大學(xué)、斯坦福大學(xué)、卡內(nèi)基等人工智能和機器人的一些早期研究人員·梅隆大學(xué)的研究人員認(rèn)為,解決視覺輸入問題應(yīng)該是解決高水平推理和規(guī)劃等更困難問題的簡單步驟。例如,1966年,麻省理工大學(xué)Marvin Minsky讓他的本科生Gerald Jay Sussman將相機連接到計算機上,讓計算機描述它所看到的。現(xiàn)在,這些看似簡單的問題并不容易解決。
20世紀(jì)60年代出現(xiàn)了數(shù)字圖像處理。與現(xiàn)有的數(shù)字圖像處理領(lǐng)域不同,機器視覺希望從圖像中恢復(fù)實物的三維結(jié)構(gòu),從而獲得完整的場景理解。場景理解的早期嘗試包括提取物體(即積木世界)的邊緣,然后從二維線的拓?fù)浣Y(jié)構(gòu)推斷其三維結(jié)構(gòu)。此外,邊緣檢測也是一個活躍的研究領(lǐng)域。
20世紀(jì)70年代,人們還研究了物體的三維建模。Barrow、Tenenbaum與Marr通過表面朝向和陰影恢復(fù)三維結(jié)構(gòu),提出了理解亮度和陰影變化的方法。當(dāng)時,有一些更定量的機器視覺方法,包括基于特征的三維視覺對應(yīng)(stereo correspondence)基于亮度的算法和光流(optica lflow)與此同時,關(guān)于恢復(fù)三維結(jié)構(gòu)和相機運動的研究也開始出現(xiàn)。
另外,David Marr關(guān)于(視覺)信息處理系統(tǒng)達的三個層次:
1)計算理論:計算(任務(wù))的目的是什么?已知或可以對這個問題施加的約束是什么?
2)表達和算法:如何表達輸入、輸出和中間信息?計算預(yù)期結(jié)果的算法是什么?
3)硬件實現(xiàn):表達和算法如何反映在實際硬件上,即生物視覺系統(tǒng)或特殊硅片上?相反,硬件約束如何用于指導(dǎo)表達和算法的選擇?隨著機器視覺對芯片計算能力需求的不斷增加,這個問題再次出現(xiàn)JRC代理次變得很重要。
2.20世紀(jì)80年代
20世紀(jì)80年代,圖像金字塔和規(guī)模空間開始廣泛應(yīng)用于從粗到精的對應(yīng)點搜索。20世紀(jì)80年代末,圖像金字塔開始被一些應(yīng)用中小波變換所取代。
從X到形狀的方法出現(xiàn)在三維視覺重建中,包括從陰影到形狀,從光度三維視覺到形狀,從紋理到形狀,從聚焦到形狀。在此期間,探索更準(zhǔn)確的邊緣和輪廓檢測方法是一個活躍的研究領(lǐng)域,包括引入動態(tài)進化輪廓跟蹤器,如Snake模型。如果將三維視覺、光流、X到形狀和邊緣檢測算法作為變分優(yōu)化問題進行處理,則可以使用相同的數(shù)學(xué)框架進行統(tǒng)一描述,并可以使用正則方法來增加魯棒。此外,20世紀(jì)90年代卡爾曼濾波器和三維距離數(shù)據(jù)(range data)在過去的十年里,處理仍然是一個非常活躍的研究領(lǐng)域。
3.20世紀(jì)90年代
視覺發(fā)展如下:
1)在識別中使用投影不變量的研究呈爆炸性增長,可以有效地用于從運動到結(jié)構(gòu)的問題。許多最初的研究都是針對投影重建的,它不需要相機校準(zhǔn)的結(jié)果。與此同時,一些人提出了有效解決近似正交投影問題的因素分解方法,后來擴展到透視投影。該領(lǐng)域開始采用全局優(yōu)化方法,后來被認(rèn)為與攝影測量中常用的光束平差法有關(guān)。
2)使用顏色和亮度進行精細測量,并將其與精確的輻射傳輸和形成彩色圖像的物理模型相結(jié)合。這項工作始于20世紀(jì)80年代,形成了一個名為基于物理的視覺(physics-based visio)子領(lǐng)域。
3)光流方法不斷改進。
4)在密集三維視覺對應(yīng)算法方面也取得了很大進展。最大的突破可能是使用圖片切割(graph cut)全局優(yōu)化算法。
5)能產(chǎn)生完整三維表面的多視角立體視覺算法。
6)跟蹤算法也得到了很多改進,包括使用活動輪廓方法的輪廓跟蹤(如蛇形、粒子濾波和水平集)和基于亮度的跟蹤。
7)統(tǒng)計學(xué)習(xí)方法開始流行,如人臉識別的主要成分分析。
3.21世紀(jì)
在21世紀(jì),計算機視覺和計算機圖形的交叉越來越明顯,特別是在基于圖像的建模和繪制的交叉領(lǐng)域。此外,計算攝像發(fā)揮著越來越重要的作用,包括光場獲取和繪制以及通過多曝光實現(xiàn)的高動態(tài)范圍成像。目標(biāo)識別中基于特征的方法(結(jié)合學(xué)習(xí)方法)越來越突出,開發(fā)了更高效、更復(fù)雜的全球優(yōu)化問題。
最后一個趨勢是復(fù)雜機器學(xué)習(xí)方法在計算機視覺中的應(yīng)用,特別是近年來,基于深度學(xué)習(xí)的機器學(xué)習(xí)方法在圖像和視頻中的應(yīng)用。
02機器視覺與其他領(lǐng)域的關(guān)系
機器視覺是一門交叉學(xué)科,它與許多領(lǐng)域有關(guān),特別是機器視覺和計算機視覺之間的關(guān)系,有些學(xué)者認(rèn)為兩者是一樣的,有些人認(rèn)為兩者是不同的,圖1-5顯示了計算機視覺、圖像處理、人工智能、機器人控制、信號處理、成像等。在相關(guān)學(xué)科中,人工智能、機器人控制等概念都有明確的定義。成像是表示或重構(gòu)客觀物體形狀及相關(guān)信息的學(xué)科。
圖1-5機器視覺與其他領(lǐng)域的關(guān)系
圖像處理主要基于現(xiàn)有圖像生成新圖像,可通過噪聲抑制、模糊、邊緣增強等處理實現(xiàn)。模式識別的主要任務(wù)是對模式進行分類。機器視覺的核心問題是從一個或多個圖像中生成符號描述。計算機視覺和計算機圖形學(xué)是一個相互關(guān)聯(lián)和相反的過程。計算機圖形學(xué)的目的是呈現(xiàn)一些真實或非真實的場景,即通過虛擬建模處理場景,然后使用計算機呈現(xiàn);計算機視覺是通過收集圖像來獲取真實場景的信息。
- 郭明錤:目前iPhone 14機型的供應(yīng)鏈沒有受到影響
- Metalenz和法半導(dǎo)體首創(chuàng)光學(xué)超表面技術(shù)metasurface,針對消費電子設(shè)備
- 重塑 Google 搜索、Android 13 新版本發(fā)布,本屆 I/O 會議給開發(fā)者帶來了什么?
- 千億產(chǎn)業(yè)集群 億級出貨量雙引擎驅(qū)動 BOE(京東方)繼續(xù)增加柔性O(shè)LED產(chǎn)業(yè)布局
- 為什么半導(dǎo)體對硅基氮化鎵技術(shù)持樂觀態(tài)度?
- 2022 Electronica 展會的 Seica:11月15日至18日,德國慕尼黑-展位A3-459
- 印度計劃建立乘用車安全評級系統(tǒng) 建議乘用車強制安裝6個安全氣囊
- NP Plastibell基于意法半導(dǎo)體展示NFC創(chuàng)新型互聯(lián)注射器技術(shù)
- 利用西門子低代碼實現(xiàn)企業(yè)質(zhì)量管理流程的敏捷性
- 畢馬威第五屆中國領(lǐng)先汽車科技企業(yè)50榜單榮獲億咖通科技獎
- 瑞薩電子和德州儀器藍牙 LE 正式對壘
- 5米級景觀座椅集成,酷鷹最新BRAM-P300E首次打印設(shè)備
