卷積神經(jīng)網(wǎng)絡(luò)總結(jié)范文
時(shí)間:2024-04-08 18:05:30
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)總結(jié),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
【關(guān)鍵詞】圖像分類(lèi)深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰
1 研究背景
手寫(xiě)數(shù)字識(shí)別是一個(gè)經(jīng)典的模式識(shí)別問(wèn)題。從0 到9這10 個(gè)阿拉伯?dāng)?shù)字組成。由于其類(lèi)別數(shù)比較小,它在些運(yùn)算量很大或者比較復(fù)雜的算法中比較容易實(shí)現(xiàn)。所以,在模式識(shí)別中數(shù)字識(shí)別一直都是熱門(mén)的實(shí)驗(yàn)對(duì)象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫(xiě)體識(shí)別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學(xué)習(xí)結(jié)構(gòu)無(wú)法自動(dòng)提取圖像特征的問(wèn)題,并且提高了分類(lèi)的泛化能力和準(zhǔn)確度。
2 深度卷積神經(jīng)網(wǎng)絡(luò)
深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實(shí)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過(guò)使用梯度下降算法最小化損失函數(shù)來(lái)進(jìn)行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過(guò)迭代訓(xùn)練提高分類(lèi)精確度。
深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個(gè)卷積層和若干個(gè)子采樣層和分類(lèi)器。分類(lèi)器一般采用Softmax,再由分類(lèi)器去輸出相應(yīng)的分類(lèi)結(jié)果。正常情況下,一個(gè)卷積后面都跟一個(gè)子采樣層?;诰矸e層里權(quán)值共享和局部連接的特性,可以簡(jiǎn)化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù)。運(yùn)算之后,獲得的結(jié)果通過(guò)激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實(shí)現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對(duì)應(yīng)的特征圖中相鄰特征通過(guò)池化操作合并成一個(gè)特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個(gè)卷積層,反復(fù)進(jìn)行特征學(xué)習(xí)。將被標(biāo)記的樣本輸入到Softmax分類(lèi)器中。
CNN 能夠簡(jiǎn)化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù),降低計(jì)算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學(xué)會(huì)的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個(gè)特點(diǎn):
2.1 局部連接
深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點(diǎn)是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點(diǎn)連接相鄰的上一層神經(jīng)元節(jié)點(diǎn)。
2.2 權(quán)重共享
在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個(gè)卷積濾波器共享相同參數(shù)并重復(fù)作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對(duì)卷積特征進(jìn)行降維。用若干個(gè)n×n 的不相交區(qū)域來(lái)劃分卷積特征,降維后的卷積特征會(huì)被這些區(qū)域中最大的或平均特征來(lái)表示。降維后的特征更方便進(jìn)行分類(lèi)。
3 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)中使用以最經(jīng)典的MNIST 和USPS 庫(kù)這兩個(gè)識(shí)別庫(kù)作為評(píng)測(cè)標(biāo)準(zhǔn)。手寫(xiě)數(shù)字MNIST數(shù)據(jù)庫(kù)有集60000 個(gè)訓(xùn)練樣本集,和10000 個(gè)測(cè)試,每個(gè)樣本向量為28×28=784維表示。手寫(xiě)數(shù)字USPS 數(shù)據(jù)庫(kù)含有7291 個(gè)訓(xùn)練樣本和2007 個(gè)測(cè)試樣本,每個(gè)樣本向量為16×16=256 維。
表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫(kù)上的識(shí)別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)MNSIT 庫(kù)識(shí)別率能夠達(dá)到97.89%,與用BP 算法得到的識(shí)別率94.26%相比,提高了兩個(gè)多百分點(diǎn)。對(duì)USPS 庫(kù)識(shí)別率能夠達(dá)到94.34%,與用BP 算法得到的識(shí)別率91.28%相比,也提高了三個(gè)多百分點(diǎn)。
因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練在圖像識(shí)別中獲得更高識(shí)別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別手寫(xiě)體字符時(shí)有著較好的分類(lèi)效果。
4 總結(jié)
本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識(shí)、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類(lèi)器Softmax。本文通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)兩組手寫(xiě)識(shí)別庫(kù)實(shí)驗(yàn)來(lái)驗(yàn)證CNN 有著較低的出錯(cuò)率。
參考文獻(xiàn)
[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫(xiě)體數(shù)字識(shí)別簡(jiǎn)介[J].計(jì)算機(jī)科學(xué),2013,40(08):316-318.
[2]王強(qiáng).基于CNN的字符識(shí)別方法研究[D].天津師范大學(xué),2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動(dòng)化學(xué)報(bào),2007,33(12):1247-1251.
作者簡(jiǎn)介
關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學(xué)歷?,F(xiàn)為中國(guó)電子科技集團(tuán)公司第五十四研究所工程師。研究方向?yàn)橛?jì)算機(jī)軟件工程。
篇2
關(guān)鍵詞:智能消防;火焰識(shí)別;卷積神經(jīng)網(wǎng)絡(luò)
一、智能裝備簡(jiǎn)介
若想提高消防救援隊(duì)伍的滅火救援效能,提高裝備的智能化水平是必不可少的一步。消防裝備的配備情況影響著戰(zhàn)術(shù)和戰(zhàn)術(shù)效果,甚至是直接影響救援成功率的重要因素。因此,提升裝備的智能化水平、改善裝備結(jié)構(gòu)從而提升消防救援隊(duì)伍的作戰(zhàn)能力是關(guān)系廣大人民群眾生命以及財(cái)產(chǎn)安全的重要手段。消防裝備智能化的研究工作任重而道遠(yuǎn)。本文著眼于圖像法火焰識(shí)別技術(shù),通過(guò)研究新技術(shù),探討將其應(yīng)用于智能消防裝備之中的可行性。
二、卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)介
(一)網(wǎng)絡(luò)結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)功能繁多,其中多層檢測(cè)學(xué)習(xí)神經(jīng)網(wǎng)是一種多層次的神經(jīng)監(jiān)測(cè)網(wǎng)絡(luò)。其中心模塊為卷積層,主要由隱藏層與最大池采樣層組成,主要功能是特征提取。其中,連接層與傳統(tǒng)多層感應(yīng)器的隱藏層、邏輯歸類(lèi)器相對(duì)應(yīng)。卷積神經(jīng)網(wǎng)絡(luò)的輸入特征來(lái)源使卷積濾波器,而該神經(jīng)網(wǎng)絡(luò)的每一層都有多個(gè)理論上的神經(jīng)元以及特征圖。在給一個(gè)來(lái)自卷積和子采樣層的輸入統(tǒng)計(jì)濾波后,系統(tǒng)就提取了圖像局部的特征,就可以確定它與其他特征之間的相對(duì)方位,上一層的輸出值直接輸入至下一層。通常情況下,我們可以通過(guò)特征層來(lái)得到卷積層(特征層是指:輸入到隱藏層之間的映射)。(二)局部感受野與權(quán)值共享。局部感受野:由于圖像空間的連接是局部性的,因此每個(gè)神經(jīng)元都不需要感測(cè)全部圖像,而只需感覺(jué)到局部的特征。然后,通過(guò)對(duì)較高級(jí)別感測(cè)量的局部神經(jīng)元進(jìn)行集成,可以得到整體的信息,并且減少了連接數(shù)量。權(quán)重分享:不同神經(jīng)元之間的參數(shù)分享可通過(guò)降低求解參數(shù),并通過(guò)放大器對(duì)圖像的放大積獲得多種特征圖。實(shí)際上,權(quán)重共享圖像上的第一隱藏層的所有神經(jīng)元由于是在同一卷積上確認(rèn)的,所以均能在圖像的任意一個(gè)位置檢測(cè)到毫無(wú)差別的特性。他的最主要的功能是能夠通過(guò)適應(yīng)小范圍的圖像和平移從而達(dá)到檢測(cè)不同位置的目的,也就是良好的不變性平移。(三)卷積層、下采樣層。卷積層:通過(guò)去卷積來(lái)提取圖像特征,用來(lái)強(qiáng)化初始信號(hào)原屬性,從而減少噪音。下采樣層:由于研究人員發(fā)現(xiàn)圖像下采樣過(guò)程中,它能在保留信息的同時(shí)降低數(shù)據(jù)處理量,因此在發(fā)現(xiàn)某一特定的特征后,由于這個(gè)位置并不重要,所以樣本會(huì)擾亂特定的位置。我們只需要知道這個(gè)特征與其他特點(diǎn)之間的空間相對(duì)方位,就可以處理類(lèi)似的物體由變形和變型而產(chǎn)生的變化。(四)卷積神經(jīng)網(wǎng)絡(luò)的不足。如果網(wǎng)絡(luò)層需要加深,每一個(gè)網(wǎng)絡(luò)層增加的神經(jīng)元數(shù)量會(huì)大幅增加,從而使模型復(fù)雜化,增大了調(diào)整參數(shù)的難度,也增大了過(guò)度擬合的風(fēng)險(xiǎn)。此外,在反向傳播過(guò)程中,連續(xù)迭代會(huì)使梯度不斷減小,而梯度一旦歸零,權(quán)值便無(wú)法更新,導(dǎo)致神經(jīng)元失效。(五)展望與總結(jié)隨著研究人員對(duì)卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的研究不斷推進(jìn),其性能日益強(qiáng)大,復(fù)雜度也日益提升。目前,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究已經(jīng)取得了顯著成效。然而,一些人工擾動(dòng)(如向原圖片中鍵入噪點(diǎn))仍然會(huì)導(dǎo)致圖像的錯(cuò)誤分類(lèi)。如何解決這一問(wèn)題,是今后研究的重點(diǎn)。此外,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級(jí)仍有很大空間,通過(guò)提升網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的合理性,可以完善量化分析能力。
三、圖像分割
圖像中包含很多數(shù)據(jù),需要分割圖像。然而,精確區(qū)分干擾是對(duì)整個(gè)系統(tǒng)亮度的精確分類(lèi)和準(zhǔn)確劃類(lèi)的前提。圖像的分析技術(shù)是計(jì)算機(jī)視覺(jué)技術(shù)的基礎(chǔ)。通過(guò)圖像分割、提取特征參量等方法可以將原本的圖像抽象化,從而便于分析和處理。多年以來(lái),圖像的分割技術(shù)研究一直是重中之重,研究人員給出了多種分割方法。一般而言,圖像分割是將圖像劃分為不同的區(qū)域,給不同的區(qū)域賦予不同的權(quán)重,從而獲取重要對(duì)象的一種技術(shù)。特征可能是灰度、顏色、紋理等,目標(biāo)可能對(duì)應(yīng)一個(gè)區(qū)或多個(gè)地方,這與特殊目的應(yīng)用程序和特殊目的服務(wù)請(qǐng)求程序有關(guān)。一般而言,圖像取值分割分析算法大致來(lái)說(shuō)可以再細(xì)分為圖形圖像取值分割、邊緣圖像分割、區(qū)域分割和重復(fù)圖像分析四大個(gè)門(mén)類(lèi)。
四、火焰色彩虛擬模型的特征
(一)火焰色彩顏色類(lèi)型特征?;鹧嫔誓P鸵话銇?lái)說(shuō)是基于某種火焰色彩類(lèi)型模式,通過(guò)在圖像閾值控制范圍內(nèi)通過(guò)設(shè)置某種色彩模型圖像閾值來(lái)降噪提取火焰顏色特征圖像??梢杂萌魏翁崛§o態(tài)火焰的特殊像素或者圖案方式來(lái)精確描述一個(gè)靜態(tài)火焰特征。然而,單純地依靠顏色模型來(lái)進(jìn)行火焰識(shí)別會(huì)導(dǎo)致嚴(yán)重的誤判?;鹧娴念伾秶欠浅4蟮?,所以它很可能與其他物體顏色相近,導(dǎo)致模型將其混為一談。(二)降噪在?;鹧姘l(fā)展的初期過(guò)程中,是不斷處于移動(dòng)變化的。又一方面,火焰的全部運(yùn)動(dòng)都不會(huì)跳躍,也就是火焰滿足相對(duì)穩(wěn)定性。所謂燃燒火災(zāi)的相對(duì)穩(wěn)定性,是指在火災(zāi)發(fā)生后,燃燒范圍的空間會(huì)成一個(gè)相對(duì)穩(wěn)定的擴(kuò)增趨勢(shì)擴(kuò)增。通過(guò)分析火災(zāi)的相對(duì)穩(wěn)定性,可以消滅許多虛假信號(hào)。(三)靜態(tài)模型。在基于單幀圖像識(shí)別的算法中,由于只使用了幾個(gè)以火焰為基準(zhǔn)的單一形狀特征,因此算法復(fù)雜、誤判率很高。因此,一個(gè)能夠自主優(yōu)化識(shí)別的模型就顯得十分重要,圖像靜態(tài)特征提取的方法如下:由于曲率在人的視覺(jué)系統(tǒng)中往往是觀測(cè)場(chǎng)景的重要參數(shù),因此提取幾何圖像曲率等參數(shù),并以此描繪火焰圖像;根據(jù)測(cè)得的數(shù)據(jù),描繪連續(xù)零曲率以及局部最大曲率、最高曲率正負(fù)值等集合特點(diǎn)。(四)動(dòng)態(tài)模型在動(dòng)態(tài)燃燒過(guò)程中,產(chǎn)生的火焰具有持續(xù)性。此外,根據(jù)火焰自身的特性和各種原因,火焰還會(huì)不斷發(fā)生變化。然而,這種變化并不在單個(gè)幀圖像中反映出來(lái),而是在連續(xù)的多幀圖像中只反映。因此,提取火焰的動(dòng)態(tài)特征就是分析處理連續(xù)多幀圖像。近年來(lái),隨著火災(zāi)科學(xué)的發(fā)展,從火焰的隨機(jī)狀態(tài)中發(fā)現(xiàn)了其規(guī)則性:1.火焰的面積增長(zhǎng)性;2.火焰的形狀相似性;3.火焰的整體移動(dòng)?;趫D像的火焰識(shí)別算法可劃分為動(dòng)態(tài)識(shí)別和靜態(tài)識(shí)別。若將這兩種算法同步進(jìn)行應(yīng)用,則定能增加工作效率?;鹧嫘纬傻闹匾攸c(diǎn)之一便是火焰形狀。對(duì)于采集到的ccd火焰圖像,首先進(jìn)行兩個(gè)連續(xù)的圖像差分操作,然后通過(guò)分割方法獲得連續(xù)幀的變化區(qū)域,使用掃描窗口得到的像素點(diǎn)數(shù)來(lái)記述連續(xù)幀變化區(qū)域。變化區(qū)域是指:圖像處理中,在獲得閾值之后,通過(guò)對(duì)高光度進(jìn)行科學(xué)計(jì)算、實(shí)驗(yàn)分析,最終得到的區(qū)域。當(dāng)其他高溫物體移動(dòng)到相機(jī)或離開(kāi)視野時(shí),所檢測(cè)到的目標(biāo)區(qū)域會(huì)逐漸擴(kuò)大,并容易引起干擾,從而造成系統(tǒng)錯(cuò)誤的報(bào)告。因此,需要將數(shù)據(jù)和其他圖像的關(guān)鍵性特征進(jìn)行一個(gè)高強(qiáng)度的結(jié)合,再深度進(jìn)行挖掘。火焰的形狀相似性:圖像之間的類(lèi)似性通常依賴于已知描述特點(diǎn)之間的差異度。該方法能夠在任意復(fù)雜程度上建立相應(yīng)的類(lèi)似性量。我們可以對(duì)兩個(gè)相似的元素進(jìn)行比較,也可以對(duì)兩個(gè)相似的場(chǎng)面進(jìn)行比較,圖像之間的相似性通常意義上是指場(chǎng)景以及結(jié)構(gòu)上的相似性。在一般情況下,圖像的結(jié)構(gòu)相似度往往并不高,因此,我們傾向于選擇更加典型的結(jié)構(gòu)特點(diǎn)進(jìn)行描述,如區(qū)域面積、區(qū)域亮度、線段長(zhǎng)度等參數(shù)。雖然火焰的圖像序列中火焰的邊緣往往是很不穩(wěn)定的,但圖像的總體變化會(huì)被限制在一定范圍內(nèi),而且一般的干擾信號(hào)模式包含了固定點(diǎn)或者光照變化,因此,在火焰識(shí)別的過(guò)程中,可以用初始火焰形狀的變化規(guī)則與其進(jìn)行對(duì)照。盡管火焰的變化通常呈現(xiàn)出不規(guī)則的特性,然而這種不規(guī)則在形態(tài)、空間分布等方面往往具有某種相似之處,因此,我們可以用連續(xù)圖像的結(jié)構(gòu)相似性來(lái)進(jìn)行解析。
五、結(jié)語(yǔ)
各種高新技術(shù)不斷飛躍式發(fā)展,這為我國(guó)消防智能化技術(shù)的開(kāi)發(fā)以及與外國(guó)新型消防設(shè)備之間的碰撞提供了一個(gè)良好的契機(jī),而消防裝備的智能化已成為一個(gè)必然的趨勢(shì)。自改革開(kāi)放至今,我國(guó)所研究的有關(guān)裝備智能化領(lǐng)域內(nèi)取得的成果,已經(jīng)為我們打下了堅(jiān)實(shí)的發(fā)展基礎(chǔ),因此我們更應(yīng)該加快消防智能化的進(jìn)程,綜合現(xiàn)有所具備的技術(shù),取其精華去其糟粕,適而用之。由于研究條件和專業(yè)方向的局限,本文對(duì)智能消防裝備中的火焰識(shí)別技術(shù)仍然存在不足。此次智能消防裝備的研究方向主要是火焰識(shí)別領(lǐng)域,以建立模型的方法進(jìn)行測(cè)算與研究,而對(duì)于理論性知識(shí)方面的探討仍存在很大的不足。之后的研究可以從其他方面進(jìn)行深入的探討,探究其對(duì)系統(tǒng)化建模會(huì)產(chǎn)生哪些方面的影響。
參考文獻(xiàn):
[1]喻麗春,劉金清.基于改進(jìn)MaskR-CNN的火焰圖像識(shí)別算法[J].計(jì)算機(jī)工程與應(yīng)用,2020,964(21):200-204.
[2]肖堃.多層卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法可移植性分析[J].哈爾濱工程大學(xué)學(xué)報(bào),2020,41(03):420-424.
[3]郭昆.基于卷積神經(jīng)網(wǎng)絡(luò)的建筑風(fēng)格圖像分類(lèi)的研究[D].武漢理工大學(xué),2017.
[4]徐曉煜.極化合成孔徑雷達(dá)艦船檢測(cè)方法研究[D].西安電子科技大學(xué),2017.
[5]黃憶旻.基于圖像檢索的導(dǎo)游系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州大學(xué),2016.
[6]宋戈.火災(zāi)自動(dòng)檢測(cè)技術(shù)在無(wú)人值守變電站中的應(yīng)用[D].沈陽(yáng)理工大學(xué),2010.
[7]葛勇.基于視頻的火災(zāi)檢測(cè)方法研究及實(shí)現(xiàn)[D].湖南大學(xué),2009.
篇3
關(guān)鍵詞:車(chē)牌;識(shí)別;專利;分析
引言
車(chē)牌識(shí)別技術(shù)[1-2]是指自動(dòng)提取受監(jiān)控區(qū)域車(chē)輛的車(chē)牌信息并進(jìn)行處理的技術(shù),其通過(guò)運(yùn)用圖像處理、計(jì)算機(jī)視覺(jué)、模式識(shí)別等技術(shù),對(duì)攝像頭捕獲的車(chē)輛照片或視頻進(jìn)行分析,進(jìn)而自動(dòng)識(shí)別車(chē)輛的車(chē)牌號(hào)碼。車(chē)牌識(shí)別技術(shù)可應(yīng)用于停車(chē)場(chǎng)自動(dòng)收費(fèi)管理、道路監(jiān)控等領(lǐng)域,在城市交通管理中發(fā)揮了重要作用。
1 中國(guó)專利申請(qǐng)情況分析
以CNABS專利數(shù)據(jù)庫(kù)中的檢索結(jié)果為分析樣本,介紹車(chē)牌識(shí)別技術(shù)的中國(guó)專利申請(qǐng)量趨勢(shì)以及重要申請(qǐng)人的狀況。
1.1 第一階段(2005年及之前)
在這階段,申請(qǐng)量極少且申請(qǐng)人也極少,且針對(duì)的環(huán)境較為簡(jiǎn)單,處于技術(shù)的萌芽階段,其中,專利CN1529276,通過(guò)車(chē)牌定位、字符分割和分類(lèi)識(shí)別完成機(jī)動(dòng)車(chē)牌號(hào)自動(dòng)識(shí)別,其實(shí)現(xiàn)過(guò)程較為簡(jiǎn)單,具體細(xì)節(jié)描述較少。
1.2 第二階段(2006年-2010年)
在這階段的申請(qǐng)量比上一階段有所增加,而且申請(qǐng)人數(shù)量相較之前也有增長(zhǎng),其中來(lái)自高校的申請(qǐng)量明顯增加,反映出了高校研究者開(kāi)始更加注重對(duì)研究成果的保護(hù),這一階段的專利所針對(duì)的環(huán)境場(chǎng)景更為復(fù)雜,識(shí)別準(zhǔn)確率得到提高,對(duì)車(chē)牌定位、字符分割、字符識(shí)別等關(guān)鍵技術(shù)的研究更為深入。
1.3 第三階段(2011年及以后)
在2011年之后車(chē)牌識(shí)別技術(shù)的專利申請(qǐng)量呈現(xiàn)快速增長(zhǎng),這一階段車(chē)牌識(shí)別技術(shù)得到了更進(jìn)一步的豐富,涉及的關(guān)鍵技術(shù)的解決途徑也呈現(xiàn)出多樣性,檢測(cè)效率和精度也得到進(jìn)一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車(chē)識(shí)別方法,將云計(jì)算應(yīng)用于車(chē)牌識(shí)別,使得與傳統(tǒng)環(huán)境下不經(jīng)過(guò)優(yōu)化的方法相比具有^高的運(yùn)行效率和加速比,可以有效地識(shí)別套牌車(chē)。
圖2示出了中國(guó)重要申請(qǐng)人分布情況,申請(qǐng)量分布前十的申請(qǐng)人包括:電子科技大學(xué)、深圳市捷順科技實(shí)業(yè)股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(shù)(北京)有限公司(信幀電子)、中國(guó)科學(xué)院自動(dòng)化研究所(自動(dòng)化研究所)、安徽清新互聯(lián)信息科技有限公司(清新互聯(lián))、青島海信網(wǎng)絡(luò)科技股份有限公司(海信網(wǎng)絡(luò))、浙江工業(yè)大學(xué)、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統(tǒng)有限公司(高德威智能交通),從圖2中可以看出,不同申請(qǐng)人的申請(qǐng)量差距不是很大,幾乎保持在一個(gè)比較持平的狀態(tài)。
電子科技大學(xué)在車(chē)牌識(shí)別技術(shù)的專利申請(qǐng)中,CN 101064011A提出一種基于小波變換的復(fù)雜背景中的車(chē)牌提取方法,可大大提高對(duì)晴天、雨天、霧天、白天及夜晚等環(huán)境的通用性和適用性,實(shí)現(xiàn)車(chē)牌的精確定位并提高車(chē)牌提取的準(zhǔn)確度;CN 103455815A提出一種復(fù)雜場(chǎng)景下的自適應(yīng)車(chē)牌字符分割方法,能快速、準(zhǔn)確地搜索2、3字符間隔位置,實(shí)現(xiàn)自適應(yīng)調(diào)整分割參數(shù),使車(chē)牌字符分割穩(wěn)定可靠,在復(fù)雜的環(huán)境中魯棒性強(qiáng),防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車(chē)牌字符識(shí)別方法,最大限度地利用了已獲得的車(chē)牌字符信息以及同類(lèi)字符之間的相互關(guān)系,對(duì)于車(chē)牌字符的成像質(zhì)量要求更低,應(yīng)用于復(fù)雜的環(huán)境中具有很好的魯棒性和準(zhǔn)確性。
2 關(guān)鍵技術(shù)分析
一個(gè)完整的車(chē)牌定位與識(shí)別系統(tǒng),其前端包括圖像采集和傳輸系統(tǒng),末端還需要與數(shù)據(jù)庫(kù)相連接。從定位到識(shí)別的核心算法上,主要包括圖像預(yù)處理、車(chē)牌定位、字符分割和字符識(shí)別四大部分[3]。
圖像預(yù)處理,是指通過(guò)對(duì)攝像頭捕獲的彩色圖像進(jìn)行預(yù)處理。常用的預(yù)處理方法包括圖像灰度化、圖像二值化、邊緣檢測(cè)等。
車(chē)牌定位,是指在經(jīng)預(yù)處理后的車(chē)輛圖像中,定位出車(chē)輛的車(chē)牌所在位置。常用的車(chē)牌定位方法包括基于紋理分析的方法、基于數(shù)學(xué)形態(tài)學(xué)的方法、基于邊緣檢測(cè)的方法、基于小波變換的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等。CN 104298976A提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)牌檢測(cè)方法,利用卷積神經(jīng)網(wǎng)絡(luò)完整車(chē)牌識(shí)別模型對(duì)車(chē)牌粗選區(qū)域進(jìn)行篩選,獲取車(chē)牌最終候選區(qū)域。
字符分割,是指將定位出的車(chē)牌區(qū)域圖像分割成單個(gè)的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區(qū)域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車(chē)牌字符分割方法,基于彈性模板,通過(guò)插空進(jìn)行模板序列形狀的彈性調(diào)整,將車(chē)牌圖片與理想模板進(jìn)行匹配,獲得全局最優(yōu)匹配,確定字符位置,將分割算法作用于投影序列,實(shí)現(xiàn)對(duì)車(chē)牌字符的分割。
字符識(shí)別,是指對(duì)字符分割之后的單個(gè)字符圖像進(jìn)行識(shí)別,進(jìn)而得到車(chē)輛的車(chē)牌號(hào)碼。常用的車(chē)牌字符識(shí)別方法包括基于字符結(jié)構(gòu)特征的識(shí)別方法、基于模板匹配的識(shí)別方法、基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法、基于模糊理論的模式識(shí)別方法和基于支持向量機(jī)分類(lèi)識(shí)別方法等。CN 105975968A提出一種基于Caffe框架的深度學(xué)習(xí)車(chē)牌字符識(shí)別方法,以基于Caffe架構(gòu)的深度學(xué)習(xí)為基礎(chǔ),解決了現(xiàn)有的車(chē)牌字符識(shí)別方法中對(duì)傾斜、斷裂、相近字符識(shí)別精度不高的問(wèn)題,大大提高了對(duì)于車(chē)牌字符的識(shí)別精度。
3 結(jié)束語(yǔ)
本文以車(chē)牌識(shí)別相關(guān)專利文獻(xiàn)為樣本,分析統(tǒng)計(jì)了該技術(shù)中國(guó)專利申請(qǐng)現(xiàn)狀,并對(duì)車(chē)牌識(shí)別技術(shù)的關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單分析。在經(jīng)歷了從無(wú)到有、從萌芽到飛速發(fā)展的階段之后,車(chē)牌識(shí)別技術(shù)慢慢走向成熟,越來(lái)越多的企業(yè)和高校在車(chē)牌識(shí)別的研究上投入了大量的精力,也獲得了豐碩的研究成果。
參考文獻(xiàn)
[1]尹旭.汽車(chē)牌照定位研究綜述[J].電腦知識(shí)與技術(shù),2010,6(14):3729-3730.
篇4
關(guān)鍵詞人臉識(shí)別;特征提取
1人臉識(shí)別技術(shù)概述
近年來(lái),隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,人臉自動(dòng)識(shí)別技術(shù)得到廣泛研究與開(kāi)發(fā),人臉識(shí)別成為近30年里模式識(shí)別和圖像處理中最熱門(mén)的研究主題之一。人臉識(shí)別的目的是從人臉圖像中抽取人的個(gè)性化特征,并以此來(lái)識(shí)別人的身份。一個(gè)簡(jiǎn)單的自動(dòng)人臉識(shí)別系統(tǒng),包括以下4個(gè)方面的內(nèi)容:
(1)人臉檢測(cè)(Detection):即從各種不同的場(chǎng)景中檢測(cè)出人臉的存在并確定其位置。
(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。
(3)人臉表征(FaceRepresentation):采取某種方式表示檢測(cè)出人臉和數(shù)據(jù)庫(kù)中的已知人臉。
(4)人臉識(shí)別(Recognition):將待識(shí)別的人臉與數(shù)據(jù)庫(kù)中的已知人臉比較,得出相關(guān)信息。
2人臉識(shí)別算法的框架
人臉識(shí)別算法描述屬于典型的模式識(shí)別問(wèn)題,主要有在線匹配和離線學(xué)習(xí)兩個(gè)過(guò)程組成,如圖1所示。
圖1一般人臉識(shí)別算法框架
在人臉識(shí)別中,特征的分類(lèi)能力、算法復(fù)雜度和可實(shí)現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對(duì)最終分類(lèi)結(jié)果有著決定性的影響。分類(lèi)器所能實(shí)現(xiàn)的分辨率上限就是各類(lèi)特征間最大可區(qū)分度。因此,人臉識(shí)別的實(shí)現(xiàn)需要綜合考慮特征選擇、特征提取和分類(lèi)器設(shè)計(jì)。
3人臉識(shí)別的發(fā)展歷史及分類(lèi)
人臉識(shí)別的研究已經(jīng)有相當(dāng)長(zhǎng)的歷史,它的發(fā)展大致可以分為四個(gè)階段:
第一階段:人類(lèi)最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。
J.S.Bruner于1954年寫(xiě)下了關(guān)于心理學(xué)的Theperceptionofpeople,Bledsoe在1964年就工程學(xué)寫(xiě)了FacialRecognitionProjectReport,國(guó)外有許多學(xué)校在研究人臉識(shí)別技術(shù)[1],其中有從感知和心理學(xué)角度探索人類(lèi)識(shí)別人臉機(jī)理的,如美國(guó)TexasatDallas大學(xué)的Abdi和Tool小組[2、3],由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3];也有從視覺(jué)機(jī)理角度進(jìn)行研究的,如英國(guó)的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。
第二階段:關(guān)于人臉的機(jī)器識(shí)別研究開(kāi)始于二十世紀(jì)七十年代。
Allen和Parke為代表,主要研究人臉識(shí)別所需要的面部特征。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識(shí)別過(guò)程全部依賴于操作人員,不是一種可以完成自動(dòng)識(shí)別的系統(tǒng)。
第三階段:人機(jī)交互式識(shí)別階段。
Harmon和Lesk用幾何特征參數(shù)來(lái)表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設(shè)計(jì)了基于這一特征表示法的識(shí)別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識(shí)別方法,用歐氏距離來(lái)表征人臉特征。但這類(lèi)方法需要利用操作員的某些先驗(yàn)知識(shí),仍然擺脫不了人的干預(yù)。
第四階段:20世紀(jì)90年代以來(lái),隨著高性能計(jì)算機(jī)的出現(xiàn),人臉識(shí)別方法有了重大突破,才進(jìn)入了真正的機(jī)器自動(dòng)識(shí)別階段。在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中,國(guó)際上形成了以下幾類(lèi)主要的人臉識(shí)別方法:
1)基于幾何特征的人臉識(shí)別方法
基于幾何特征的方法是早期的人臉識(shí)別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時(shí)往往要用到人臉結(jié)構(gòu)的一些先驗(yàn)知識(shí)。識(shí)別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點(diǎn)間的歐式距離、曲率、角度等。
基于幾何特征的識(shí)別方法比較簡(jiǎn)單、容易理解,但沒(méi)有形成統(tǒng)一的特征提取標(biāo)準(zhǔn);從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時(shí);對(duì)較大的表情變化或姿態(tài)變化的魯棒性較差。
2)基于相關(guān)匹配的方法
基于相關(guān)匹配的方法包括模板匹配法和等強(qiáng)度線方法。
①模板匹配法:Poggio和Brunelli[10]專門(mén)比較了基于幾何特征的人臉識(shí)別方法和基于模板匹配的人臉識(shí)別方法,并得出結(jié)論:基于幾何特征的人臉識(shí)別方法具有識(shí)別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識(shí)別率上模板匹配要優(yōu)于基于幾何特征的識(shí)別方法。
②等強(qiáng)度線法:等強(qiáng)度線利用灰度圖像的多級(jí)灰度值的等強(qiáng)度線作為特征進(jìn)行兩幅人臉圖像的匹配識(shí)別。等強(qiáng)度曲線反映了人臉的凸凹信息。這些等強(qiáng)度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實(shí)形狀的等強(qiáng)度線。
3)基于子空間方法
常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨(dú)立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴(kuò)展到混合線性子空間和非線性子空間。
Turk等[11]采用本征臉(Eigenfaces)方法實(shí)現(xiàn)人臉識(shí)別。由于每個(gè)本征矢量的圖像形式類(lèi)似于人臉,所以稱本征臉。對(duì)原始圖像和重構(gòu)圖像的差分圖像再次進(jìn)行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對(duì)于眼、鼻和嘴等特征分別建立一個(gè)本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識(shí)別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉?lè)椒ǖ淖R(shí)別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識(shí)別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識(shí)別效果好于本征臉?lè)椒?。?dāng)每個(gè)人有多個(gè)樣本圖像時(shí),本征空間法沒(méi)有考慮樣本類(lèi)別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識(shí)別結(jié)果。Bartlett等[18]采用獨(dú)立分量分析(ICA,IndependentComponentAnalysis)的方法識(shí)別人臉,獲得了比PCA方法更好的識(shí)別效果。
4)基于統(tǒng)計(jì)的識(shí)別方法
該類(lèi)方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。
①KL變換:將人臉圖像按行(列)展開(kāi)所形成的一個(gè)高維向量看作是一種隨機(jī)向量,因此采用K-L變換獲得其正交K-L基底,對(duì)應(yīng)其中較大特征值基底具有與人臉相似的形狀。國(guó)外,在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中,比較有影響的有MIT的Media實(shí)驗(yàn)室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。
②隱馬爾可夫模型:劍橋大學(xué)的Samaria和Fallside[20]對(duì)多個(gè)樣本圖像的空間序列訓(xùn)練出一個(gè)HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結(jié)構(gòu)特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識(shí)別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識(shí)別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識(shí)別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識(shí)別人臉[24],如圖2(b)所示。后來(lái)集成coupledHMM和HMM通過(guò)對(duì)超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。
基于HMM的人臉識(shí)別方法具有以下優(yōu)點(diǎn):第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動(dòng);第二,擴(kuò)容性好.即增加新樣本不需要對(duì)所有的樣本進(jìn)行訓(xùn)練;第三,較高的識(shí)別率。
(a)(b)
圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型
5)基于神經(jīng)網(wǎng)絡(luò)的方法
Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過(guò)一個(gè)多級(jí)的SOM實(shí)現(xiàn)樣本的聚類(lèi),將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識(shí)別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征,最后采用一個(gè)MLP來(lái)實(shí)現(xiàn)人臉識(shí)別。Er等[30]采用PCA進(jìn)行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進(jìn)行人臉識(shí)別。Haddadnia等[31]基于PZMI特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)是通過(guò)學(xué)習(xí)的過(guò)程獲得對(duì)這些規(guī)律和規(guī)則的隱性表達(dá),它的適應(yīng)性較強(qiáng)。
6)彈性圖匹配方法
Lades等提出采用動(dòng)態(tài)鏈接結(jié)構(gòu)(DLA,DynamicLinkArchitecture)[32]的方法識(shí)別人臉。它將人臉用格狀的稀疏圖如圖3所示。
圖3人臉識(shí)別的彈性匹配方法
圖3中的節(jié)點(diǎn)用圖像位置的Gabor小波分解得到的特征向量標(biāo)記,圖的邊用連接節(jié)點(diǎn)的距離向量標(biāo)記。Wiskott等人使用彈性圖匹配方法,準(zhǔn)確率達(dá)到97.3%。Wiskott等[33]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn),構(gòu)成彈性圖。采用每個(gè)基準(zhǔn)點(diǎn)存儲(chǔ)一串具有代表性的特征矢量,減少了系統(tǒng)的存儲(chǔ)量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個(gè)多層的分級(jí)結(jié)構(gòu)。Grudin等[35]也采用分級(jí)結(jié)構(gòu)的彈性圖,通過(guò)去除了一些冗余節(jié)點(diǎn),形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問(wèn)題轉(zhuǎn)換為曲面匹配問(wèn)題,利用有限分析的方法進(jìn)行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識(shí)別人臉。
7)幾種混合方法的有效性
(1)K-L投影和奇異值分解(SVD)相融合的分類(lèi)判別方法。
K-L變換的核心過(guò)程是計(jì)算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當(dāng)圖像有小的擾動(dòng)時(shí),奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時(shí)擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對(duì)人臉進(jìn)行識(shí)別,提高識(shí)別的準(zhǔn)確性[37]。
(2)HMM和奇異值分解相融合的分類(lèi)判別方法。
采用奇異值分解方法進(jìn)行特征提取,一般是把一幅圖像(長(zhǎng)為H)看成一個(gè)N×M的矩陣,求取其奇異值作為人臉識(shí)別的特征。在這里我們采用采樣窗對(duì)同一幅圖片進(jìn)行重疊采樣(如圖4),對(duì)采樣所得到的矩陣分別求其對(duì)應(yīng)的前k個(gè)最大的奇異值,分別對(duì)每一組奇異值進(jìn)行矢量標(biāo)準(zhǔn)化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。
圖4采樣窗采樣
綜合上述論文中的實(shí)驗(yàn)數(shù)據(jù)表明[39],如表1:
表1人臉識(shí)別算法比較
8)基于三維模型的方法
該類(lèi)方法一般先在圖像上檢測(cè)出與通用模型頂點(diǎn)對(duì)應(yīng)的特征點(diǎn),然后根據(jù)特征點(diǎn)調(diào)節(jié)通用模型,最后通過(guò)紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺(jué)理論,通過(guò)攝像機(jī)獲取立體圖像,根據(jù)圖像特征點(diǎn)之間匹配構(gòu)造人臉的三維表面,如圖5所示。
圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型
Zhao[41]提出了一個(gè)新的SSFS(SymetricShape-from-Shading)理論來(lái)處理像人臉這類(lèi)對(duì)稱對(duì)象的識(shí)別問(wèn)題,基于SSFS理論和一個(gè)一般的三維人臉模型來(lái)解決光照變化問(wèn)題,通過(guò)基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問(wèn)題,針對(duì)不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。
三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點(diǎn)的坐標(biāo),而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。
圖7三維建模的系統(tǒng)框圖
三維人臉建模、待識(shí)別人臉的姿態(tài)估計(jì)和識(shí)別匹配算法的選取是實(shí)現(xiàn)三維人臉識(shí)別的關(guān)鍵技術(shù)。隨著采用三維圖像識(shí)別人臉技術(shù)的發(fā)展,利用直線的三維圖像信息進(jìn)行人臉識(shí)別已經(jīng)成為人們研究的重心。
4總結(jié)與展望
人臉自動(dòng)識(shí)別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實(shí)際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測(cè)并分割出人臉部分,而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類(lèi)的效果,還需要注重和提高以下幾個(gè)方面:
(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進(jìn)一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。
(2)多特征融合和多分類(lèi)器融合的方法也是改善識(shí)別性能的一個(gè)手段。
(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準(zhǔn)確的人臉識(shí)別仍較困難。為了滿足自動(dòng)人臉識(shí)別技術(shù)具有實(shí)時(shí)要求,在必要時(shí)需要研究人臉與指紋、虹膜、語(yǔ)音等識(shí)別技術(shù)的融合方法。
(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對(duì)各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識(shí)別算法的選取還處于探索階段,需要在原有傳統(tǒng)識(shí)別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。
(5)表面紋理識(shí)別算法是一種最新的算法[52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。
總之,人臉識(shí)別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識(shí)別效果,如何與其它技術(shù)相結(jié)合,如何提高識(shí)別率和識(shí)別速度、減少計(jì)算量、提高魯棒性,如何采用嵌入式及硬件實(shí)現(xiàn),如何實(shí)用化都是將來(lái)值得研究的。
參考文獻(xiàn)
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]張翠萍,蘇光大.人臉識(shí)別技術(shù)綜述.中國(guó)圖像圖形學(xué)報(bào),2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇異值分解相融合人臉識(shí)別方法的研究[D].四川大學(xué).2004,5,1
[14]白冬輝.人臉識(shí)別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006,5
篇5
關(guān)鍵詞:語(yǔ)音情感識(shí)別;情感描述模型;情感特征;語(yǔ)音情感庫(kù);域適應(yīng)
DOIDOI:10.11907/rjdk.161498
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)009014303
作者簡(jiǎn)介作者簡(jiǎn)介:薛文韜(1991-),男,江蘇常熟人,江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院碩士研究生,研究方向?yàn)檎Z(yǔ)音情感識(shí)別。
0引言
1997年,美國(guó)麻省理工學(xué)院的Picard教授提出了情感計(jì)算(Affective Computing)的概念。情感計(jì)算作為計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)、心理學(xué)等多學(xué)科交叉的新興研究領(lǐng)域,已成為人工智能的重要發(fā)展方向之一。而語(yǔ)音情感識(shí)別作為情感計(jì)算的一個(gè)重要分支,亦引起了廣泛關(guān)注。
許多國(guó)內(nèi)外知名大學(xué)和科研機(jī)構(gòu)也開(kāi)始語(yǔ)音情感識(shí)別研究,國(guó)外如美國(guó)麻省理工學(xué)院Picard教授領(lǐng)導(dǎo)的情感計(jì)算研究小組,德國(guó)慕尼黑工業(yè)大學(xué)Schuller教授領(lǐng)導(dǎo)的人機(jī)語(yǔ)音交互小組等;國(guó)內(nèi)如清華大學(xué)的人機(jī)交互與媒體集成研究所、西北工業(yè)大學(xué)音頻、語(yǔ)音與語(yǔ)言處理組等。
1語(yǔ)音情感識(shí)別
語(yǔ)音情感識(shí)別系統(tǒng)主要由前端和后端兩部分組成。前端用于提取特征,后端基于這些特征設(shè)計(jì)分類(lèi)器。在語(yǔ)音相關(guān)應(yīng)用中,運(yùn)用比較多的分類(lèi)器是支持向量機(jī)和隱馬爾科夫模型。目前,語(yǔ)音情感識(shí)別的重點(diǎn)主要集中于特征提取。在傳統(tǒng)的語(yǔ)音情感識(shí)別中,如何提取具有判別性的特征已成為研究的重點(diǎn)。隨著數(shù)據(jù)的大規(guī)模增長(zhǎng),傳統(tǒng)語(yǔ)音情感識(shí)別的前提(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有相同的數(shù)據(jù)分布)已不能夠被滿足,研究者提出了遷移學(xué)習(xí)的概念,利用域適應(yīng)方法來(lái)解決跨庫(kù)的語(yǔ)音情感識(shí)別。
本文將從情感描述模型、語(yǔ)音情感特征、語(yǔ)音情感庫(kù)、語(yǔ)音情感挑戰(zhàn)賽這4個(gè)方面對(duì)語(yǔ)音情感研究現(xiàn)狀進(jìn)行總結(jié),并給出現(xiàn)存語(yǔ)音情感識(shí)別的技術(shù)挑戰(zhàn)及相應(yīng)的研究方法。
2情感描述模型
目前主要從離散情感和維度情感兩個(gè)方面來(lái)描述情感狀態(tài)。
離散情感描述,主要把情感描述成離散的形式,是人們?nèi)粘I钪袕V泛使用的幾種情感,也稱為基本情感。在當(dāng)前情感相關(guān)研究領(lǐng)域使用最廣泛的六大基本情感是生氣、厭惡、恐懼、高興、悲傷和驚訝。
相對(duì)于離散情感描述,維度情感描述使用連續(xù)的數(shù)值來(lái)描述情感狀態(tài),因此也稱作連續(xù)情感描述。它把情感狀態(tài)視作多維情感空間中的點(diǎn),每個(gè)維度都對(duì)應(yīng)情感的不同心理學(xué)屬性。常用的維度情感模型是二維的激活度-效價(jià)(Arousal-Valence)模型,其二維空間如圖1所示。其中橫軸表示效價(jià)屬性(Valence),用于衡量情感的正負(fù)面程度;而縱軸表示激活程度(Arousal),用于描述情感狀態(tài)的喚醒程度。通過(guò)不同的效價(jià)度和激活程度,就能區(qū)分出不同的情感,比如悲傷與生氣兩種負(fù)面情緒雖然效價(jià)相差無(wú)異,但兩者的激活度卻有很大差異。
3語(yǔ)音情感特征
傳統(tǒng)的語(yǔ)音情感特征可粗略地分為基于聲學(xué)的情感特征和基于語(yǔ)義的情感特征?;诼晫W(xué)的情感特征又分為3類(lèi):韻律學(xué)特征、音質(zhì)特征以及頻譜特征[1]。音高、能量、基頻和時(shí)長(zhǎng)等是最為常用的韻律學(xué)特征,由于韻律學(xué)特征具有較強(qiáng)的情感辨別能力,已經(jīng)得到了研究者們的廣泛認(rèn)同。音質(zhì)特征主要有呼吸聲、明亮度特征和共振峰等,語(yǔ)音中所表達(dá)的情感狀態(tài)被認(rèn)為與音質(zhì)有著很大的相關(guān)性。頻譜特征主要包括線性譜特征和倒譜特征,線性譜特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒譜特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于這3類(lèi)語(yǔ)音特征的不同語(yǔ)段長(zhǎng)度的統(tǒng)計(jì)特征是目前使用最為普遍的特征參數(shù)之一,如特征的平均值、變化率、變化范圍等。然而到底什么特征才最能體現(xiàn)語(yǔ)音情感之間的差異,目前還沒(méi)有統(tǒng)一的說(shuō)法。
在2009年首次舉辦的國(guó)際語(yǔ)音情感挑戰(zhàn)INTERSPEECH 2009 Emotion Challenge(EC)的分類(lèi)器子挑戰(zhàn)中,組織者為參賽者提供了一個(gè)基本特征集,選擇了在韻律學(xué)特征、音質(zhì)特征和頻譜特征中廣泛使用的特征和函數(shù),包括16個(gè)低層描述子(Low-Level Descriptors,LLDs)和12個(gè)函數(shù),構(gòu)建了一個(gè)384維的特征向量[2]。具體的16個(gè)低層描述子和12個(gè)函數(shù)如表1所示。
4語(yǔ)音情感庫(kù)
語(yǔ)音情感庫(kù)作為語(yǔ)音情感識(shí)別的前提條件,影響著最終語(yǔ)音情感識(shí)別系統(tǒng)的性能。目前,在語(yǔ)音情感庫(kù)的建立方面還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),已構(gòu)建的情感語(yǔ)音庫(kù)多種多樣,在語(yǔ)言、情感表現(xiàn)方式(表演型(acted)、引導(dǎo)型(elicited),自發(fā)型(naturalistic))、情感標(biāo)記方案(離散情感或者維度情感)、聲學(xué)信號(hào)條件、內(nèi)容等方面具有很大差異。從情感表現(xiàn)方式而言,表演型情感一般是讓職業(yè)演員以模仿的方式表現(xiàn)出相應(yīng)的情感狀態(tài),雖然說(shuō)話人被要求盡量表達(dá)出自然的情感,但刻意模仿的情感還是顯得更加夸大,使得不同情感類(lèi)別之間的差異性比較明顯,這方面的語(yǔ)音情感庫(kù)有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期對(duì)語(yǔ)音情感識(shí)別的研究都是基于表演型語(yǔ)料庫(kù),隨著人們意識(shí)到引導(dǎo)型情感具有更加自然的情感表達(dá)之后,研究者們開(kāi)始基于引導(dǎo)型情感庫(kù)進(jìn)行研究,比如eNTERFACE[5]。隨著研究的深入,迫切需要一些自發(fā)的語(yǔ)音情感數(shù)據(jù),目前出現(xiàn)了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的幾個(gè)語(yǔ)音情感庫(kù)如表2所示,描述了他們?cè)谀挲g、語(yǔ)言、情感、樣本個(gè)數(shù)、記錄環(huán)境和采樣率之間的差異。
5語(yǔ)音情感挑戰(zhàn)賽
雖然已經(jīng)有很多研究致力于語(yǔ)音情感識(shí)別,但是相對(duì)于其它語(yǔ)音任務(wù)(如自動(dòng)語(yǔ)音識(shí)別和說(shuō)話人識(shí)別)而言,語(yǔ)音情感識(shí)別中還不存在標(biāo)準(zhǔn)的語(yǔ)音情感庫(kù)和統(tǒng)一的測(cè)試條件用于在相同條件下進(jìn)行性能比較。同時(shí),為了處理更加現(xiàn)實(shí)的場(chǎng)景,需要獲得自然的語(yǔ)音情感數(shù)據(jù)。國(guó)際語(yǔ)音情感挑戰(zhàn)INTERSPEECH 2009 EC旨在彌補(bǔ)出色的語(yǔ)音情感識(shí)別研究和結(jié)果可比性之間的缺陷,它提供了自然的語(yǔ)音情感庫(kù)FAU AEC,以及開(kāi)源工具包openEAR來(lái)提取基本的384維特征集,保證了特征的透明性,從而使得結(jié)果具有重現(xiàn)性和可比性[9]。FAU AEC庫(kù)包括了德國(guó)兩個(gè)學(xué)校(Ohm和Mont)10~13歲的孩子與索尼公司的機(jī)器狗Aibo進(jìn)行交互的語(yǔ)音數(shù)據(jù)。為了實(shí)現(xiàn)說(shuō)話人獨(dú)立的語(yǔ)音情感識(shí)別,通常學(xué)校Ohm記錄的數(shù)據(jù)用于訓(xùn)練,而Mont記錄的數(shù)據(jù)用于測(cè)試。INTERSPEECH 2009 EC的情感分類(lèi)任務(wù)主要包括2類(lèi)情感(負(fù)面情感、所有其它情感)分類(lèi)和5類(lèi)情感(生氣、同情、積極、中立和其它)分類(lèi),目前已有很多研究基于FAU AEC庫(kù)進(jìn)行情感分類(lèi)。除了在FAU AEC庫(kù)上進(jìn)行傳統(tǒng)的語(yǔ)音情感識(shí)別外,隨著跨庫(kù)語(yǔ)音情感識(shí)別研究的深入,很多研究者也將FAU AEC作為目標(biāo)域數(shù)據(jù)庫(kù)進(jìn)行域適應(yīng)的研究。
6語(yǔ)音情感識(shí)別的主要挑戰(zhàn)
6.1語(yǔ)音情感特征
在傳統(tǒng)語(yǔ)音情感識(shí)別中,提取具有判別性的特征已經(jīng)成為一個(gè)重要的研究方向。在情感特征提取過(guò)程中,通常存在一些與情感無(wú)關(guān)的因素,如說(shuō)話內(nèi)容、說(shuō)話人、環(huán)境等,這些不相關(guān)的因素將會(huì)使得提取到的特征包含這些因素方面的變化,從而影響情感分類(lèi)性能。
目前已有部分研究開(kāi)始考慮這些與情感無(wú)關(guān)因素的影響。同時(shí),隨著深度學(xué)習(xí)的提出與發(fā)展,越來(lái)越多的研究者開(kāi)始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。Chao等[10]利用無(wú)監(jiān)督預(yù)訓(xùn)練去噪自動(dòng)編碼器,減少了情感特征中說(shuō)話人的影響。Mao等[11]提出了半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)模型,提取情感相關(guān)特征,通過(guò)實(shí)驗(yàn)證明其對(duì)說(shuō)話人的變化、環(huán)境的滋擾以及語(yǔ)言變化都有很強(qiáng)的魯棒性。Mariooryad 等[12]對(duì)特征構(gòu)建音素層次的彈道模型,從聲學(xué)特征中分解出說(shuō)話人的特性,從而彌補(bǔ)說(shuō)話人對(duì)語(yǔ)音情感識(shí)別的影響。
6.2跨庫(kù)的語(yǔ)音情感識(shí)別
在傳統(tǒng)的語(yǔ)音情感識(shí)別中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)一般來(lái)自同一個(gè)語(yǔ)料庫(kù)或者具有相同的數(shù)據(jù)分布。隨著數(shù)據(jù)的爆炸式增長(zhǎng),從不同設(shè)備和環(huán)境下獲得的語(yǔ)音數(shù)據(jù)通常在語(yǔ)言、情感表現(xiàn)方式、情感標(biāo)記方案、聲學(xué)信號(hào)條件、內(nèi)容等方面存在很大差異,這就造成了訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布的不同,傳統(tǒng)的語(yǔ)音情感識(shí)別方法就不再適用。
近年來(lái),遷移學(xué)習(xí)(Transfer Learning)的概念被提出,指從一個(gè)或多個(gè)源域中將有用的信息遷移到相關(guān)的目標(biāo)域,以幫助改善目標(biāo)域的分類(lèi)性能[13]。域適應(yīng)(Domain Adaptation)作為一種特殊的遷移學(xué)習(xí),已成功應(yīng)用于跨庫(kù)的語(yǔ)音情感識(shí)別。Deng等[14]提出一種共享隱藏層自動(dòng)編碼器(shared-hidden-layer autoencoder,SHLA)模型,相較于傳統(tǒng)的自動(dòng)編碼器,SHLA的輸入數(shù)據(jù)包含了源域和目標(biāo)域兩類(lèi)數(shù)據(jù),讓兩個(gè)域的數(shù)據(jù)共用編碼部分而解碼部分不同,目的是誘使兩個(gè)域的數(shù)據(jù)在隱藏層空間具有相似的數(shù)據(jù)分布。Huang等[15]利用PCANet沿著從源域到目標(biāo)域的路徑提取特征,并用目標(biāo)域空間來(lái)調(diào)整路徑上的特征,以此彌補(bǔ)域之間的差異。
參考文獻(xiàn)參考文獻(xiàn):
[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.
[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.
[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.
[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.
[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.
[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.
[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.
[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.
[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.
[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.
[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.
[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.
[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.
篇6
關(guān)鍵詞:紅棗(Ziziphus zizyphus);邊緣檢測(cè);分級(jí)
中圖分類(lèi)號(hào):S665.1;TP751.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0439-8114(2014)10-2427-04
Grading Red Dates Based on the Size from Image Edge Detection
YAO Na,WU Gang,CHEN Jie
(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)
Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.
Key words:red dates(Ziziphus zizyphus); edge detection; grading
基金項(xiàng)目:新疆生產(chǎn)建設(shè)兵團(tuán)青年科技創(chuàng)新資金專項(xiàng)(2013CB020)
新疆地區(qū)紅棗品種較多,有的品種含糖量高達(dá)34%,其營(yíng)養(yǎng)豐富,受到人們的喜愛(ài)。目前,紅棗品種越來(lái)越多,其產(chǎn)量及銷(xiāo)售量也越來(lái)越高,紅棗采集后對(duì)其進(jìn)行分類(lèi)是加工過(guò)程中很重要的工作環(huán)節(jié),最初的分揀都是由人工完成,一方面需要大量的人力資源;另一方面不能保證產(chǎn)品的安全。隨著科學(xué)技術(shù)的發(fā)展,農(nóng)業(yè)機(jī)械化的應(yīng)用越來(lái)越廣泛,研究者將重點(diǎn)關(guān)注紅棗自動(dòng)分級(jí),可以節(jié)省人力而實(shí)現(xiàn)農(nóng)業(yè)自動(dòng)化。李湘萍[1]介紹了紅棗分級(jí)機(jī)的工作原理;張保生等[2]將紅棗的形狀特征、顏色特征和紋理特征通過(guò)BP網(wǎng)絡(luò)算法進(jìn)行自動(dòng)分級(jí);趙文杰等[3]提出了以顏色作為特征利用支持向量機(jī)的方法進(jìn)行紅棗的缺陷識(shí)別,識(shí)別率可達(dá)96.2%;肖愛(ài)玲[4]對(duì)幾種典型的紅棗分級(jí)機(jī)的結(jié)構(gòu)進(jìn)行了介紹;肖愛(ài)玲等[5]對(duì)2011年前紅棗的分級(jí)技術(shù)及研究現(xiàn)狀進(jìn)行了總結(jié);沈從舉等[6]對(duì)紅棗分級(jí)機(jī)的研究狀態(tài)和應(yīng)用方法進(jìn)行了歸納。
目前,基于計(jì)算機(jī)視覺(jué)的方法具有智能化、精度高、損傷小等優(yōu)點(diǎn),該方法的核心部分在于選取什么特征以及利用何種算法對(duì)紅棗進(jìn)行判斷。研究者提出的方法具有一個(gè)共同特點(diǎn)是特征選取較多,比如同時(shí)提取顏色特征、形狀特征和紋理特征,因此計(jì)算量較大,分級(jí)機(jī)的設(shè)計(jì)組成對(duì)信息處理的硬件部分有較高的要求,在紅棗分級(jí)機(jī)的設(shè)計(jì)中存在兩方面的問(wèn)題:一方面成本較高;另一方面硬件達(dá)不到設(shè)計(jì)的要求。小波變換對(duì)噪聲不敏感,邊緣檢測(cè)清晰,所以有不少研究者將不同的小波變換方法[7-10]應(yīng)用在圖像邊緣檢測(cè)中,經(jīng)仿真試驗(yàn)證明也適合應(yīng)用在紅棗的邊緣檢測(cè)中。因此,本研究提出一種簡(jiǎn)單的分級(jí)方法來(lái)對(duì)紅棗進(jìn)行分級(jí),即以提取紅棗的邊緣特征,只有形狀特征,應(yīng)用小波變換的算法,減少了計(jì)算量。
1材料與方法
1.1材料
紅棗品種為新疆阿拉爾地區(qū)種植的駿棗,已經(jīng)過(guò)人為的挑揀,測(cè)試結(jié)果得分為優(yōu)等級(jí)的個(gè)數(shù)較多。
1.2檢測(cè)方法
在無(wú)腐爛的情況下,個(gè)體較大、飽滿的紅棗可分到較高的級(jí)別中,可用邊緣檢測(cè)方法對(duì)紅棗的邊緣進(jìn)行檢測(cè),然后根據(jù)檢測(cè)出的邊緣再計(jì)算紅棗的面積,面積大于某一設(shè)定閾值的紅棗為優(yōu)等級(jí),其余為低級(jí)。
1.3小波邊緣檢測(cè)
小波變換可以解決時(shí)域和頻域的矛盾,可以將信號(hào)進(jìn)行更精確地分析。圖像中的邊緣點(diǎn)為灰度變化較大的像素點(diǎn),即一階微分極大值點(diǎn)或者二階微分過(guò)零點(diǎn)。圖像邊緣檢測(cè)可以通過(guò)小波的奇異性來(lái)檢測(cè)。設(shè)θ(x,y)為一個(gè)平滑的二維函數(shù),在考慮尺度參數(shù)的情況下,θa(x,y)=■■,■,那么二維小波的定義[11]為:
ψx(x,y)=■
ψy(x,y)=■
用矢量形式表示二維小波變換:
a■+■
=af■(x,y)■+f■(x,y)■
=af(x,y)[ψx(x,y)■+ψy(x,y)■]
=a[(fψx)(x,y)■+(fψy)(x,y)■]
=Wxa f(x,y)■+Wya f(x,y)■
=aΔ(fθa)(x,y)
fθa(x,y)表示圖像f(x,y)與平滑函數(shù)θa(x,y)卷積后的平滑圖像。梯度矢量的模值為:
■ (3)
梯度矢量與水平方向的夾角為:
α=Arg[Wa(x,y)]
=arctan■(4)
確定梯度矢量的模值極值后,再經(jīng)過(guò)閾值的處理,可以得到圖像的邊緣,不同的a可以實(shí)現(xiàn)多個(gè)不同尺度的檢測(cè)。圖像中目標(biāo)的方向性是重要的特征之一,作為小波的改進(jìn)方向,小波的應(yīng)用成為了一個(gè)研究熱點(diǎn),它能有較好的方向性分析,體現(xiàn)了圖像的方向性。任意方向小波變換[12]的定義為:(假設(shè)γ=0,θ∈[0,π)]
Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)
=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ
=||Wa f(x,y)||■?
cosθ+■sinθ (5)
=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))?
cosθ+sin(Arg[Wa f(x,y)])sinθ
=||Wa f(x,y)||(cosαcosθ+sinαsinθ)
=||Wa f(x,y)||cos(α-θ)
運(yùn)用小波方法對(duì)紅棗進(jìn)行邊緣檢測(cè),為紅棗分級(jí)檢測(cè)解決基礎(chǔ)性的第一步難題,同時(shí)也用經(jīng)典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子對(duì)紅棗進(jìn)行邊緣檢測(cè)以便比較分析各自的特點(diǎn)。
1.4分級(jí)檢測(cè)的過(guò)程
檢測(cè)紅棗邊緣后需要對(duì)紅棗的面積進(jìn)行計(jì)算,通過(guò)對(duì)邊緣點(diǎn)的長(zhǎng)度進(jìn)行計(jì)算可以得出邊緣的長(zhǎng)度,將紅棗的形狀假設(shè)為圓形,可以用圓周長(zhǎng)將圓面積求出,即可以求出紅棗的面積。假設(shè)計(jì)算檢測(cè)出邊緣點(diǎn)的長(zhǎng)度,紅棗的面積近似為:
s=■ (6)
因?yàn)檎麄€(gè)過(guò)程屬于比較過(guò)程,所以進(jìn)行近似計(jì)算不影響相對(duì)的比較。
整個(gè)分級(jí)檢測(cè)的仿真試驗(yàn)步驟為:
1)讀入紅棗圖像,將彩色RGB圖像轉(zhuǎn)為灰度圖像;
2)對(duì)紅棗灰度圖像求出小波變換的模值和梯度矢量與水平方向的夾角;
3)在水平方向、垂直方向、-45°方向和+45°方向4個(gè)方向上進(jìn)行搜索判斷模值和梯度方向的條件得到邊緣值,將得到的邊緣值進(jìn)行歸一化,設(shè)定閾值為0.18來(lái)判斷紅棗圖像的邊緣;
4)計(jì)算紅棗的邊緣長(zhǎng)度,確定紅棗邊緣長(zhǎng)度的閾值;
5)根據(jù)公式(6)計(jì)算紅棗的面積;大于邊緣長(zhǎng)度閾值的對(duì)應(yīng)面積閾值的紅棗判定為優(yōu)良等級(jí)的紅棗,否則為較差等級(jí)的紅棗。
針對(duì)不同的分級(jí)機(jī)的機(jī)械設(shè)計(jì),紅棗面積的閾值的確定可以根據(jù)兩種方式:一種方式是針對(duì)分級(jí)機(jī)單個(gè)讀取紅棗圖像并直接進(jìn)行分級(jí)挑揀的情況,閾值根據(jù)經(jīng)驗(yàn)值來(lái)確定,比如某種品種的紅棗大小是在固定范圍內(nèi)波動(dòng),預(yù)先設(shè)定固定的閾值來(lái)進(jìn)行分級(jí)挑揀;另一種方式是針對(duì)分級(jí)機(jī)進(jìn)行大量紅棗圖像同時(shí)進(jìn)行讀取時(shí),遍歷全部紅棗圖像,找到最大面積的紅棗,然后閾值設(shè)定為最大值的80%,大于該閾值的紅棗判定為優(yōu)等級(jí),否則判定為較差等級(jí)。
2結(jié)果與分析
仿真試驗(yàn)中分別對(duì)單個(gè)紅棗和兩個(gè)紅棗為例進(jìn)行小波的邊緣檢測(cè),并且將小波檢測(cè)結(jié)果與Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子檢測(cè)結(jié)果進(jìn)行分析對(duì)比。
2.1 單個(gè)紅棗檢測(cè)結(jié)果
圖1為理想的情況,即一個(gè)紅棗全部被讀入沒(méi)有遮蓋的情況,也是正常情況下的邊緣檢測(cè)。由圖1可以看出,小波方法檢測(cè)出的曲線較少,輪廓清晰,輪廓線的連續(xù)性好,一方面有利于邊緣長(zhǎng)度的計(jì)算;另一方面減少了曲線個(gè)數(shù)的計(jì)算,減少了整個(gè)方法的計(jì)算量。Sobel算子檢測(cè)出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,定位精度不夠高,邊緣比較模糊;Canny算子檢測(cè)到的邊緣雖然比較連續(xù),但是出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計(jì)算紅棗大小時(shí)會(huì)增加計(jì)算量,并且容易出錯(cuò);Prewitt算子和Roberts算子的檢測(cè)結(jié)果類(lèi)似于Sobel算子的檢測(cè)結(jié)果,并且Roberts算子的檢測(cè)結(jié)果中邊緣斷點(diǎn)較多,給計(jì)算紅棗的長(zhǎng)度帶來(lái)困難;Log算子的檢測(cè)結(jié)果邊緣較為連續(xù),有少量斷點(diǎn),與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測(cè)出的結(jié)果。根據(jù)邊緣檢測(cè)的效果和計(jì)算復(fù)雜度以及后期需要的算法的復(fù)雜度來(lái)比較這幾種方法的優(yōu)劣順序?yàn)樾〔?、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。
2.2兩個(gè)有遮蓋的紅棗檢測(cè)結(jié)果
圖2為遮蓋的情況,因此單個(gè)紅棗的邊緣不能完全檢測(cè)出,但是根據(jù)周長(zhǎng)閾值的比較結(jié)果,同樣可以算出單個(gè)紅棗的面積。由圖2可以看出,小波方法對(duì)于有遮蓋的紅棗檢測(cè)仍是輪廓清晰且連續(xù)性好,內(nèi)部曲線較少。Sobel算子檢測(cè)出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,邊緣斷點(diǎn)較多,邊緣比較模糊;Canny算子檢測(cè)到的邊緣過(guò)于模糊且斷點(diǎn)較多,還出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計(jì)算紅棗大小時(shí)對(duì)后期的算法要求較高,且容易出現(xiàn)錯(cuò)誤結(jié)果;Prewitt算子和Roberts算子的檢測(cè)結(jié)果類(lèi)似于Sobel算子的檢測(cè)結(jié)果,Roberts算子的檢測(cè)結(jié)果中邊緣較為清楚;Log算子的檢測(cè)結(jié)果邊緣斷點(diǎn)較多,與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測(cè)出的結(jié)果。根據(jù)邊緣檢測(cè)的結(jié)果和計(jì)算復(fù)雜度以及后期算法的復(fù)雜度來(lái)比較這幾種方法的優(yōu)劣順序?yàn)樾〔āoberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。對(duì)于單個(gè)和兩個(gè)紅棗進(jìn)行檢測(cè)的仿真結(jié)果都說(shuō)明:較于其他5種算子,小波方法均是最優(yōu)的。
研究中采集的紅棗圖像大小為442×398像素,閾值采用經(jīng)驗(yàn)值,實(shí)際的周長(zhǎng)閾值映射到圖像中的周長(zhǎng)為1 084像素,仿真試驗(yàn)結(jié)果判定為準(zhǔn)確可行,試驗(yàn)結(jié)果見(jiàn)表1。
3小結(jié)與討論
隨著自動(dòng)化技術(shù)在農(nóng)業(yè)產(chǎn)品中應(yīng)用越來(lái)越廣泛,其理論研究的方法也越來(lái)越多,從計(jì)算機(jī)視覺(jué)領(lǐng)域結(jié)合農(nóng)業(yè)自動(dòng)化技術(shù)提出了對(duì)紅棗加工有促進(jìn)作用的紅棗自動(dòng)分級(jí)的核心方法,對(duì)于紅棗生產(chǎn)的地區(qū)有重要意義。研究提出了利用方向小波方法對(duì)紅棗圖像進(jìn)行邊緣檢測(cè)進(jìn)而計(jì)算紅棗大小來(lái)對(duì)紅棗分級(jí)的方法,經(jīng)仿真試驗(yàn)證明小波變換方法的優(yōu)越性及整個(gè)方法的有效性和快速性。此研究是在假設(shè)紅棗無(wú)腐爛的情況下進(jìn)行分級(jí)的,所以有一定的局限性,但在下一步研究中可以彌補(bǔ)此點(diǎn)的不足,設(shè)置多個(gè)閾值可以將紅棗進(jìn)行多個(gè)等級(jí)的分揀。
參考文獻(xiàn):
[1] 李湘萍.6ZF-0.5型紅棗分級(jí)機(jī)的試驗(yàn)研究[J].山西農(nóng)機(jī),2000(14):3-5.
[2] 張保生,姚瑞央.基于BP神經(jīng)網(wǎng)絡(luò)算法的紅棗分級(jí)技術(shù)應(yīng)用[J].廣東農(nóng)業(yè)科學(xué),2010(11):282-283.
[3] 趙杰文,劉少鵬,鄒小波.基于機(jī)器視覺(jué)和支持向量機(jī)的缺陷棗的識(shí)別研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2008,39(3):113-115.
[4] 肖愛(ài)玲.幾種典型的紅棗分級(jí)機(jī)[J].新疆農(nóng)機(jī)化,2010(4):10-11.
[5] 肖愛(ài)玲,李偉.我國(guó)紅棗分級(jí)技術(shù)及紅棗分級(jí)機(jī)研究現(xiàn)狀[J].農(nóng)機(jī)化研究,2011(11):241-244.
[6] 沈從舉,賈首星,鄭炫,等.紅棗分級(jí)機(jī)械的現(xiàn)狀與發(fā)展[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2013,34(1):26-30.
[7] 宋文龍,閔昆龍,邢奕,等.基于小波變換的自適應(yīng)閾值植物根系圖像邊緣檢測(cè)[J].北京科技大學(xué)學(xué)報(bào),2012,34(8):966-970.
[8] 王敬東,徐亦斌,.圖像小波邊緣檢測(cè)中邊界處理的研究[J].計(jì)算機(jī)工程,2007,33(5):161-163.
[9] 鮑雄偉.小波變換在圖像邊緣檢測(cè)中的應(yīng)用[J].電子設(shè)計(jì)工程,2012,20(14):160-162.
[10] 薄勝坤,張麗英.一種基于小波變換和Canny算子相結(jié)合的邊緣檢測(cè)方法[J].長(zhǎng)春大學(xué)學(xué)報(bào),2012,22(10):1177-1180.
篇7
行人再識(shí)別指的是在非重疊監(jiān)控視頻中,檢索某個(gè)監(jiān)控視頻中出現(xiàn)的目標(biāo)是否出現(xiàn)在其它的監(jiān)控視頻中.最近幾年,行人再識(shí)別問(wèn)題引起了廣大科研人員的興趣與研究.監(jiān)控視頻中的目標(biāo)圖像分辨率低、場(chǎng)景中存在著光照變化、視角變化、行人姿態(tài)變化以及攝像機(jī)自身屬性的問(wèn)題,導(dǎo)致同一目標(biāo)在不同的監(jiān)控視頻中外觀區(qū)別很大,使得行人再識(shí)別問(wèn)題遇到了很大的挑戰(zhàn)。為了有效的解決這些挑戰(zhàn),廣大的研究者提出了很多解決方法.目前的行人再識(shí)別算法可以簡(jiǎn)單概括為四種:直接法、基于深度學(xué)習(xí)的方法、顯著性學(xué)習(xí)的方法和間接法.
直接法利用視覺(jué)特征對(duì)行人建立一個(gè)魯棒性和區(qū)分性的表示,不需要通過(guò)學(xué)習(xí)直接利用行人特征然后根據(jù)傳統(tǒng)的相似性度量算法(歐式距離、巴氏距離等等)來(lái)度量行人之間的相似度.文獻(xiàn)[1]首次提出了利用直方圖特征來(lái)表征目標(biāo)并通過(guò)度量直方圖的相似度來(lái)識(shí)別不同的目標(biāo).文獻(xiàn)[2]將行人圖像粗略分為頭部、上半身和下半身3部分,然后串聯(lián)每一部分的顏色直方圖對(duì)行人描述.文獻(xiàn)[3]采用分割的技術(shù)提取人的前景,并利用行人區(qū)域的對(duì)稱性和非對(duì)稱性將人的前景劃分成不同的區(qū)域.對(duì)于每個(gè)區(qū)域,提取帶權(quán)重的顏色直方圖特征、極大穩(wěn)定顏色區(qū)域(maximallystablecolorregions)特征和重復(fù)度高的結(jié)構(gòu)區(qū)域(recurrenthighlystructuredpatches)特征描述它們.文獻(xiàn)[4]提出了一種結(jié)合gabor特征和協(xié)方差矩陣描述的BiCov描述子來(lái)對(duì)行人描述.文獻(xiàn)[5]采用圖案結(jié)構(gòu)(pictorialstruc-ture)算法定位圖像中人的各個(gè)部件所在的區(qū)域.對(duì)于每個(gè)部件的區(qū)域,提取與文獻(xiàn)[3]類(lèi)似的顏色直方圖特征、極大穩(wěn)定顏色區(qū)域特征來(lái)描述它們.文獻(xiàn)[6]利用lbp特征和21個(gè)濾波器特征(8個(gè)gabor濾波器和13個(gè)schmid濾波器)來(lái)描述圖像中的行人.文獻(xiàn)[7]通過(guò)共生矩陣對(duì)行人的形狀和外形特征進(jìn)行描述.雖然直接法的算法模型簡(jiǎn)單,但由于在光照變化、視角變化以及姿態(tài)變化等情況下,同一個(gè)人的外觀變化往往很大,很難提取出魯棒性和區(qū)分性的特征描述.因此在光照變化、視角變化以及姿態(tài)變化等情況下,直接法的效果很差.
深度學(xué)來(lái)在計(jì)算機(jī)視覺(jué)中得到了廣泛的應(yīng)用,因此不少學(xué)者研究并提出了基于深度學(xué)習(xí)的行人再識(shí)別算法.文獻(xiàn)[8]LiWei等人提出了一種六層的FPNN神經(jīng)網(wǎng)絡(luò),它能有效解決行人再識(shí)別中出現(xiàn)的光照變化、姿態(tài)變化、遮擋和背景粘連等問(wèn)題,從而提高了識(shí)別率.文獻(xiàn)[9]Ahmed等人提出了一種深層卷積結(jié)構(gòu)能夠同時(shí)自動(dòng)學(xué)習(xí)特征和相應(yīng)的相似性測(cè)度函數(shù).但基于深度學(xué)習(xí)的行人再識(shí)別算法需要非常大的訓(xùn)練數(shù)據(jù)庫(kù),導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),此外還需要針對(duì)特定問(wèn)題搭建相應(yīng)的模型,因此不利于方法的推廣.同時(shí),深度學(xué)習(xí)方法中還存在調(diào)置參數(shù)缺乏理論性指導(dǎo),具有較大主觀性的問(wèn)題.基于顯著性學(xué)習(xí)的行人再識(shí)別方法近年來(lái)也受到研究者的廣泛興趣.人們可以通過(guò)行人的一些顯著信息來(lái)識(shí)別行人,但傳統(tǒng)的方法在比較兩張圖片的相似性的時(shí)候,往往忽略了行人身上的顯著性特征.對(duì)此,文獻(xiàn)[10]趙瑞等人提出了一種通過(guò)學(xué)習(xí)行人圖像的顯著性信息來(lái)度量?jī)蓮埿腥藞D像的相似性的方法.但顯著性學(xué)習(xí)的行人再識(shí)別算法在行人姿態(tài)變化的情況下,顯著性區(qū)域會(huì)出現(xiàn)偏移或者消失,導(dǎo)致識(shí)別效果較差.間接法主要是學(xué)習(xí)得到一個(gè)分類(lèi)器或一個(gè)排序模型.間接法代表性的算法有距離測(cè)度學(xué)習(xí)、支持向量機(jī)、遷移學(xué)習(xí)和流形排序算法.距離測(cè)度學(xué)習(xí)算法作為間接法中的一種,最近幾年在行人再識(shí)別中得到了廣泛的應(yīng)用.本文提出的算法也是基于距離測(cè)度學(xué)習(xí),所以下面著重介紹基于距離測(cè)度學(xué)習(xí)的行人再識(shí)別算法.
與手動(dòng)設(shè)計(jì)特征的直接法不同,距離測(cè)度學(xué)習(xí)方法是一種利用機(jī)器學(xué)習(xí)的算法得出兩張行人圖像的相似度度量函數(shù),使相關(guān)的行人圖像對(duì)的相似度盡可能高,不相關(guān)的行人圖像對(duì)的相似度盡可能低的方法.代表性的測(cè)度學(xué)習(xí)算法有文獻(xiàn)[11]鄭偉詩(shī)等人把行人再識(shí)別問(wèn)題當(dāng)成距離學(xué)習(xí)問(wèn)題,提出了一種基于概率相對(duì)距離的行人匹配模型,文獻(xiàn)[12]提出了一種基于統(tǒng)計(jì)推斷的方法學(xué)習(xí)測(cè)度矩陣來(lái)度量?jī)蓮埿腥藞D像的相似度,以及文獻(xiàn)中提出的相應(yīng)測(cè)度學(xué)習(xí)算法.距離測(cè)度算法是將原始特征空間投影到另一個(gè)更具區(qū)分性的特征空間.與其它的算法相比,距離測(cè)度學(xué)習(xí)算法具有更好的效果.距離測(cè)度學(xué)習(xí)算法即使只使用簡(jiǎn)單的顏色直方圖作為特征,算法的性能往往優(yōu)于其它算法.文獻(xiàn)[12]提出了一種基于統(tǒng)計(jì)推斷的方法學(xué)習(xí)測(cè)度矩陣來(lái)度量行人對(duì)的相似度,但作者直接在原始特征空間訓(xùn)練得到測(cè)度矩陣,進(jìn)而得到樣本之間的相似性函數(shù).原始特征空間的線性不可分性導(dǎo)致通過(guò)原始特征空間直接訓(xùn)練得到的測(cè)度矩陣不能很好的表征樣本之間的相似性和差異性.本文提出基于核學(xué)習(xí)的方法,首先通過(guò)相應(yīng)的核函數(shù)將原始特征空間投影到非線性空間,然后在非線性空間中學(xué)習(xí)得到相應(yīng)的測(cè)度矩陣.投影后的非線性特征空間具有很好的可分性,這樣學(xué)習(xí)得到的測(cè)度矩陣能準(zhǔn)確的表征樣本之間的相似性和差異性.另外,基于測(cè)度學(xué)習(xí)的行人再識(shí)別算法一般是把多特征融合并建立特征模型,然后基于相應(yīng)的測(cè)度學(xué)習(xí)算法,學(xué)習(xí)得到一個(gè)測(cè)度矩陣.然而這種特征融合往往忽略了不同屬性特征之間的差別,這樣學(xué)習(xí)得到的測(cè)度矩陣不能準(zhǔn)確的表征樣本之間的相似性與差異性.對(duì)此,本文提出在不同的特征空間中學(xué)習(xí)相應(yīng)的測(cè)度矩陣,進(jìn)而得到表示不同特征空間的相似性函數(shù),最后根據(jù)不同的權(quán)重結(jié)合這些相似性函數(shù)來(lái)表征樣本之間的相似性.本文算法在公共實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)效果優(yōu)于目前主流的行人再識(shí)別算法,尤其是第一匹配率(Rank1).本文其余章節(jié)的組織安排如下.第1節(jié)介紹本文提出的行人再識(shí)別算法.第2節(jié)介紹本文算法在公共數(shù)據(jù)集上的實(shí)驗(yàn).第三節(jié)總結(jié)全文以及展望.
1基于多特征子空間與核學(xué)習(xí)的行人再識(shí)別算法
1.1基于核學(xué)習(xí)的相似度量函數(shù)的學(xué)習(xí)文獻(xiàn)[12]中提出了一種KISSME的算法,文中指出,從統(tǒng)計(jì)學(xué)角度考慮,一對(duì)有序行人對(duì)(i,j)的相似度可以表示為式。文獻(xiàn)[12]中提出的算法是直接在原始線性特征空間中訓(xùn)練得到測(cè)度矩陣,進(jìn)而得到表示樣本之間相似性的相似度函數(shù).由于原始特征空間的線性不可分,上述方法得到的測(cè)度矩陣不能準(zhǔn)確表達(dá)樣本之間的相似性和差異性,導(dǎo)致識(shí)別效果差.本文提出基于核學(xué)習(xí)的算法首先通過(guò)相應(yīng)的核函數(shù)將原始特征空間投影到更易區(qū)分的非線性空間,然后在非線性空間中訓(xùn)練得到測(cè)度矩陣M.這樣得到的測(cè)度矩陣具M(jìn)有很好的區(qū)分性,能使同類(lèi)樣本之間的距離盡可能小,異類(lèi)樣本之間的距離盡可能大.核學(xué)習(xí)的主要思想是將原始線性特征空間投影到區(qū)分性好的非線性空間.原始特征空間中的特征xxi通過(guò)函數(shù)Φ投影到非線性空間,則非線性空間的特征表示為Φ(xxi).非線性映射函數(shù)一般是隱性函數(shù),則很難得到顯示表達(dá)式,可以利用核函數(shù)求解特征空間中樣本點(diǎn)的內(nèi)積來(lái)解決。
1.2基于多特征子空間的測(cè)度學(xué)習(xí)基于測(cè)度學(xué)習(xí)的行人再識(shí)別算法一般是把多特征融合并建立特征模型,然后基于相應(yīng)的測(cè)度學(xué)習(xí)算法得到測(cè)度矩陣.這種方法忽略了不同屬性特征之間的差別,導(dǎo)致學(xué)習(xí)得到的測(cè)度矩陣不能準(zhǔn)確的體現(xiàn)樣本之間的相似性與差異性.對(duì)此,本文提出對(duì)于不同的特征空間單獨(dú)學(xué)習(xí)相應(yīng)的測(cè)度矩陣,進(jìn)而得到表示不同特征空間的相似性函數(shù),最后根據(jù)不同的權(quán)重結(jié)合這些相似性函數(shù)來(lái)表示樣本之間的相似性.
1.3行人圖像的特征表示本文采用顏色特征和LBP特征對(duì)行人目標(biāo)進(jìn)行描述,生成兩種特征子空間.顏色空間有很多種,用不同的色彩空間描述一圖片的效果是不同的.依據(jù)文獻(xiàn)[20]和文獻(xiàn)[21],本文采用的顏色特征從RGS、HSV、YCbCr和CIELab4種顏色空間中提取.RGS空間的定義為R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.為了獲取具有魯棒性和區(qū)分性的顏色特征表示,本文將上述四種顏色特征空間融合.融合后的顏色特征描述對(duì)于光照變化的場(chǎng)景具有良好的魯棒性.圖1給出了一張被平均分成6個(gè)水平條帶的行人圖像,對(duì)于每個(gè)水平條帶的每種顏色空間的每個(gè)通道,提取16維的顏色直方圖特征,將所有的顏色直方圖特征串聯(lián)形成行人圖像的顏色特征,從而得到行人圖像顏色特征的維數(shù)為1152維(4*6*3*16).原始特征空間的1152維特征經(jīng)過(guò)核函數(shù)投影后的特征維度較高且大部分信息都是冗余的.因此實(shí)驗(yàn)中利用PCA將核空間中的特征維數(shù)降到保持大于90%的能量。為了更好的描述圖像的局部信息,本文中提取的局部特征來(lái)自于LBP等價(jià)模式中鄰域點(diǎn)數(shù)為8半徑為1和鄰域點(diǎn)數(shù)為16半徑為2兩種模式的特征.上面兩種LBP等價(jià)模式的維度分別為59維和243維.類(lèi)似于顏色特征的提取,一張行人圖像被平均分成6個(gè)水平條帶,對(duì)于每個(gè)水平條帶提取LBP兩種模式的特征,將所有的LBP特征串聯(lián)形成行人圖像的局部特征,從而得到行人圖像局部特征的維數(shù)為1812維((59+243)*6).同理,原始特征空間的1812維特征經(jīng)過(guò)核函數(shù)投影后的特征維度同樣較高并且大部分信息也都是冗余的.因此實(shí)驗(yàn)中同樣利用PCA將核空間的特征維度降到保持90%以上的能量.
1.4本文算法的具體操作步驟利用步驟3得到不同核空間中的測(cè)度矩陣計(jì)算樣本在不同核空間的相似度,然后將樣本在不同核空間中的相似度按照一定的權(quán)值結(jié)合來(lái)表示樣本之間的相似性.
2實(shí)驗(yàn)測(cè)試與結(jié)果
本節(jié)首先介紹實(shí)驗(yàn)中所使用的測(cè)試數(shù)據(jù)和算法性能的評(píng)測(cè)準(zhǔn)則,其次介紹本文算法在不同公共實(shí)驗(yàn)集上與已有的行人再識(shí)別算法的性能比較,然后在不同公共實(shí)驗(yàn)集上對(duì)比核映射前后的算法性能,最后在不同公共實(shí)驗(yàn)集上分析權(quán)值不同時(shí)對(duì)算法性能的影響.文中所有的實(shí)驗(yàn)是基于vs2010+opencv2.4.9實(shí)現(xiàn)的,實(shí)驗(yàn)平臺(tái)是24G內(nèi)存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2處理器)PC臺(tái)式機(jī).
2.1測(cè)試數(shù)據(jù)和算法性能的評(píng)測(cè)準(zhǔn)則為了與已有算法公正比較,實(shí)驗(yàn)中,采用先前工作普遍采用的評(píng)價(jià)框架.如文獻(xiàn)[22]所述,隨機(jī)選擇p對(duì)行人圖像對(duì)作為測(cè)試集,余下的行人圖像對(duì)作為訓(xùn)練集.測(cè)試集由查詢集和行人圖像庫(kù)兩部分組成.每對(duì)行人圖像,隨機(jī)選擇一張圖像并入查詢集,另一張則并入行人圖像庫(kù).當(dāng)給定一個(gè)行人再識(shí)別算法,衡量該算法在行人圖像庫(kù)中搜索待查詢行人的能力來(lái)評(píng)測(cè)此算法的性能.為了測(cè)試算法在只有少量的訓(xùn)練樣本時(shí)的性能,p分別取316,432,532進(jìn)行實(shí)驗(yàn).p取值越大,則測(cè)試樣本越多(匹配越困難),訓(xùn)練樣本越少(訓(xùn)練越困難).對(duì)于每組實(shí)驗(yàn),以上產(chǎn)生測(cè)試集和訓(xùn)練集的過(guò)程重復(fù)10次,10次實(shí)驗(yàn)結(jié)果的平均值作為本組實(shí)驗(yàn)的結(jié)果.已有的行人再識(shí)別算法大部分采用累積匹配特性(CumulativeMatchCharacteristic,CMC)曲線評(píng)價(jià)算法性能.給定一個(gè)查詢集和行人圖像庫(kù),累積匹配特征曲線描述的是在行人圖像庫(kù)中搜索待查詢的行人,前r個(gè)搜索結(jié)果中找到待查詢?nèi)说谋嚷?第1匹配率(r=1)很重要,因?yàn)樗硎镜氖钦嬲淖R(shí)別能力.但是當(dāng)r取值很小時(shí),第r匹配率也很有現(xiàn)實(shí)意義.因?yàn)樵趯?shí)際應(yīng)用中,反饋的前r個(gè)搜索結(jié)果中,可以通過(guò)人眼判斷找到查詢目標(biāo).
2.2不同公共實(shí)驗(yàn)集上實(shí)驗(yàn)對(duì)比本文算法選擇在VIPeR[23]數(shù)據(jù)集、iLIDS[24]數(shù)據(jù)集、ETHZ[25]數(shù)據(jù)集和CUHK01[26]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).VIPeR數(shù)據(jù)集中相關(guān)行人對(duì)來(lái)自兩個(gè)不同的攝像機(jī).相關(guān)行人對(duì)的外觀由于姿態(tài)、視角、光照和背景的變化而差異大.iLIDS數(shù)據(jù)集包含119個(gè)行人的476張圖像,每個(gè)行人的圖像從兩張到八張不等.iLIDS數(shù)據(jù)集是從機(jī)場(chǎng)收集的,數(shù)據(jù)集有嚴(yán)重遮擋和光照變化的問(wèn)題.ETHZ數(shù)據(jù)集包含146個(gè)行人的8555張圖像.數(shù)據(jù)集中的圖像來(lái)自移動(dòng)攝像機(jī)拍攝的三個(gè)視頻序列.ETHZ數(shù)據(jù)集中的圖像由同一攝像機(jī)拍攝,則數(shù)據(jù)集中行人姿態(tài)變化和視角變化的程度沒(méi)有VIPeR數(shù)據(jù)集那么明顯.為了使ETHZ數(shù)據(jù)集具有挑戰(zhàn)性,實(shí)驗(yàn)中相關(guān)行人提取兩張圖像,一張近景和一張遠(yuǎn)景.遠(yuǎn)景圖像含有大量無(wú)用的背景信息,使選用的數(shù)據(jù)集有明顯的遮擋情況和光照變化.CUHK01數(shù)據(jù)集是由兩個(gè)攝像機(jī)在校園環(huán)境中拍攝得到,包含971個(gè)行人的3884張圖像.每個(gè)行人包含四張圖像,前兩張圖像是攝像機(jī)拍攝的行人前后景圖像,兩張圖像是攝像機(jī)拍攝的行人側(cè)面圖像.每個(gè)行人的前兩張圖像只是姿態(tài)上有稍許的變化,前兩張圖像與后兩張圖像在視角上、姿態(tài)上差異較大以及有明顯的光照變化.實(shí)驗(yàn)中,每個(gè)行人前后景圖像隨機(jī)選擇一張,側(cè)面圖像隨機(jī)選擇一張,這樣得到的實(shí)驗(yàn)集具有顯著的視角變化、姿態(tài)變化和光照變化.
2.2.1VIPeR數(shù)據(jù)集VIPeR數(shù)據(jù)集是由632對(duì)相關(guān)行人對(duì)圖像組成.如圖2所示,同一列中的行人圖像為同一個(gè)人,為了對(duì)比本文算法基于不同核函數(shù)的實(shí)驗(yàn)效果,下表1給出了該算法基于不同核函數(shù)的實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)中測(cè)試樣本集和訓(xùn)練樣本集均為316對(duì)相關(guān)行人圖像.VIPeR數(shù)據(jù)集上的其它實(shí)驗(yàn),如果沒(méi)明確表明測(cè)試樣本集和訓(xùn)練樣本集的個(gè)數(shù),都默認(rèn)有316對(duì)相關(guān)行人圖像.從表1可知,本文算法基于RBF-χ2核函數(shù)的效果最優(yōu).為了充分體現(xiàn)算法的效果,在后面的實(shí)驗(yàn)效果對(duì)比中都是基于RBF-χ2核函數(shù).下表2給出了該算法與當(dāng)前主流算法的效果對(duì)比.從表2可知,該算法性能有較大的提升,尤其是Rank1,Rank1比表中最好的結(jié)果提高了約8(%).此外,該算法與表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函數(shù);但該算法整體效果明顯優(yōu)于它們.值得一提的是,對(duì)于Rank1,該算法的效果相對(duì)主流的行人再識(shí)別算法有了顯著的提高.第1匹配率很重要,因?yàn)樗硎镜氖钦嬲淖R(shí)別能力.行人再識(shí)別技術(shù)一個(gè)典型的應(yīng)用是刑事偵查;若Rank1越高,則在刑事偵查中,搜集與嫌疑人有關(guān)的線索的效率就會(huì)提高.為了充分說(shuō)明本文算法的優(yōu)越性,表3給出該算法在僅用HSV特征情況下與其它算法效果對(duì)比.由表3可知,該算法雖然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1僅有20(%);該算法只用HSV特征,Rank1就達(dá)到了28.4(%).另外,該算法與同樣只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然優(yōu)于它們.其中,ITML和Euclidean算法整體效果都比該算法差.NRDV算法雖然Rank1與該算法相近,但是Rank10和Rank20較低,且NRDV算法模型比該算法復(fù)雜得多.KRMCA算法效果總體上都不如該算法且KRMCA的代價(jià)函數(shù)收斂很慢,算法訓(xùn)練時(shí)間很長(zhǎng).當(dāng)測(cè)試集規(guī)模為P=432和P=532時(shí),該算法與已有行人再識(shí)別算法的性能比較如表4和表5.從表中可知,在只有少量的訓(xùn)練樣本情況下,該算法性能同樣優(yōu)于已有算法.由此可見(jiàn),該算法有效解決了學(xué)習(xí)相似度度量函數(shù)中出現(xiàn)的過(guò)擬合問(wèn)題.
2.2.2iLIDS數(shù)據(jù)集iLIDS數(shù)據(jù)集中每個(gè)行人包含兩張到八張照片不等.實(shí)驗(yàn)中,從每個(gè)行人所包含的圖像中隨機(jī)取兩張作為實(shí)驗(yàn)集,最后得到的實(shí)驗(yàn)集為119對(duì)相關(guān)行人圖像.最終實(shí)驗(yàn)效果是多次隨機(jī)取得的實(shí)驗(yàn)集效果的平均值.數(shù)據(jù)集中的圖像尺寸是不盡相同的,實(shí)驗(yàn)中統(tǒng)一把圖像的尺寸設(shè)置為高128寬48.實(shí)驗(yàn)中訓(xùn)練集為59對(duì)行人圖像,測(cè)試集為60對(duì)行人圖像.本文算法在iLIDS數(shù)據(jù)集上與其它算法的效果對(duì)比如下。該算法與表中基于測(cè)度學(xué)習(xí)的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函數(shù).但從表6可知,該算法整體性能優(yōu)于PCCA、rPCCA和MFA等算法;該算法雖然與kLFDA算法性能接近,但總體上還是優(yōu)于kLFDA算法.由此可見(jiàn),該算法比使用相同核函數(shù)的其它算法效果更好.另外,該算法整體性能也優(yōu)于KISSME、SVMML和LFDA算法.
2.2.3ETHZ數(shù)據(jù)集數(shù)據(jù)集中的圖像尺寸是不相同的,實(shí)驗(yàn)中統(tǒng)一把圖像尺寸設(shè)置為高128寬48.實(shí)驗(yàn)中訓(xùn)練集為76對(duì)行人圖片,測(cè)試集為70對(duì)行人圖片.表7分析了本文算法在ETHZ數(shù)據(jù)集上與其它算法的效果對(duì)比.從表7可知,該算法在ETHZ數(shù)據(jù)集上的整體性能優(yōu)于同樣基于RBF-χ2核函數(shù)的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ數(shù)據(jù)集上,同樣證明了該算法比使用相同核函數(shù)的其它算法效果更好.值得一提的是,該算法的rank1較于其它算法顯著提升了.另外,該算法整體性能也優(yōu)于KISSME、SVMML和LFDA算法.
2.2.4CUHK01數(shù)據(jù)集數(shù)據(jù)集中的圖片的尺寸是不相同的,實(shí)驗(yàn)中統(tǒng)一把圖片的尺寸設(shè)置為高128寬48大小.實(shí)驗(yàn)中訓(xùn)練集為486對(duì)行人圖片,測(cè)試集為485對(duì)行人圖片.本文算法在CUHK01數(shù)據(jù)集上與其它算法的效果對(duì)比如下表8:從表8可知,該算法在CUHK01數(shù)據(jù)集上的整體性能同樣優(yōu)于KISSME和SVMML算法以及基于測(cè)度學(xué)習(xí)的算法PCCA、LFDA、rPCCA、MFA和kLFDA.該算法與MidLevel算法效果接近,但MidLevel算法模型復(fù)雜.該算法與其它算法效果對(duì)比可知,該算法可以學(xué)習(xí)得到具有良好區(qū)分性的相似性度量函數(shù).通過(guò)在CUHK01數(shù)據(jù)集上的效果對(duì)比,進(jìn)一步說(shuō)明該算法與使用相同核函數(shù)的其它算法相比效果更好.
2.3特征核映射前后算法性能的比較為了分析特征經(jīng)過(guò)核映射后對(duì)算法的影響,表9、表10、表11和表12分別給出在四種數(shù)據(jù)集上特征經(jīng)過(guò)核映射前后算法效果的對(duì)比實(shí)驗(yàn).通過(guò)在四個(gè)公共數(shù)據(jù)集上實(shí)驗(yàn)對(duì)比可知,特征經(jīng)過(guò)核映射后算法效果在VIPeR、iLIDS和CUHK01數(shù)據(jù)集上整體上都得到了顯著的提升,在ETHZ數(shù)據(jù)集上雖然提高不明顯,但還是優(yōu)于已有算法.總的來(lái)說(shuō),該算法在特征經(jīng)過(guò)核映射后,學(xué)習(xí)得到的相似度度量函數(shù)更具有區(qū)分性,能夠得到較好的識(shí)別效果.
2.4權(quán)值a取值不同時(shí)算法的性能比較為了分析權(quán)值a對(duì)算法性能的影響,圖3、圖4、圖5和圖6分別給出在四種數(shù)據(jù)集上不同的權(quán)值a下,本文算法性能的對(duì)比實(shí)驗(yàn).其中SC為顏色特征子空間的相似度函數(shù),ST為L(zhǎng)BP特征子空間的相似度函數(shù).權(quán)值a越大,代表相似度函數(shù)中顏色特征子空間的相似度函數(shù)比重越大.通過(guò)在四種數(shù)據(jù)集上不同的權(quán)值a下算法性能的對(duì)比實(shí)驗(yàn)可知,a取值對(duì)算法效果的影響較大.當(dāng)a取值很小時(shí),算法效果不是很理想,當(dāng)a增大時(shí),算法性得到一定程度的提升,當(dāng)a在0.5到0.7范圍內(nèi)取相應(yīng)的值時(shí),算法性能能達(dá)到最優(yōu),當(dāng)a繼續(xù)增大后,算法性能有一定程度的下降.
3結(jié)論