傳統(tǒng)視頻監(jiān)控系統(tǒng)只提供視頻的捕獲、保存、傳輸、顯示畫面等功能,而視頻內(nèi)容的分析識(shí)別等需要人工實(shí)現(xiàn),工作量巨大且容易出錯(cuò)。智能監(jiān)控系統(tǒng)是指在特定的監(jiān)控區(qū)域內(nèi)實(shí)時(shí)監(jiān)控場(chǎng)景內(nèi)的永久或是臨時(shí)的物體,通過對(duì)視頻傳感器獲取的信息進(jìn)行智能分析來實(shí)現(xiàn)自動(dòng)的場(chǎng)景理解、預(yù)測(cè)被觀察目標(biāo)的行為以及交互性行為。本文就視頻智能分析技術(shù)的原理和現(xiàn)狀進(jìn)行介紹。
引言
在傳統(tǒng)視頻監(jiān)控系統(tǒng)中,視頻內(nèi)容的分析識(shí)別等需要人工實(shí)現(xiàn),由于勞動(dòng)強(qiáng)度高,工作量巨大且容易出錯(cuò),因此視頻監(jiān)控系統(tǒng)正朝著智能化的方向發(fā)展。新一代的智能化監(jiān)控系統(tǒng)采用了智能視頻分析技術(shù),克服了傳統(tǒng)監(jiān)控系統(tǒng)人眼識(shí)別的缺陷,具備實(shí)時(shí)對(duì)監(jiān)控范圍內(nèi)的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè)跟蹤的功能;并且把行為識(shí)別等技術(shù)引入到監(jiān)控系統(tǒng)中,形成新的能夠完全替代人為監(jiān)控的智能型監(jiān)控系統(tǒng)。
智能視頻分析技術(shù)涉及到模式識(shí)別、機(jī)器視覺、人工智能、網(wǎng)絡(luò)通信以及海量數(shù)據(jù)管理等技術(shù)。視頻智能分析通常可以分為幾部分:運(yùn)動(dòng)目標(biāo)的識(shí)別、目標(biāo)跟蹤與行為理解。
智能分析技術(shù)原理
一般情況下,視頻智能化分析的基本過程是從給定的視頻中讀取每幀圖像,并對(duì)輸入圖像進(jìn)行預(yù)處理,如濾波、灰度轉(zhuǎn)換等,然后判斷輸入圖像中是否有運(yùn)動(dòng)目標(biāo),接下來判斷運(yùn)動(dòng)目標(biāo)是否為監(jiān)控目標(biāo),最后對(duì)該目標(biāo)根據(jù)需求進(jìn)行監(jiān)控、跟蹤或是行為理解等分析。
1、 目標(biāo)檢測(cè)技術(shù)
運(yùn)動(dòng)檢測(cè)(Motion Detection)。運(yùn)動(dòng)檢測(cè)是把視頻中變化的區(qū)域與背景圖像精確分離出來,即正確分割出運(yùn)動(dòng)目標(biāo)區(qū)域或輪廓,這是任何系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)首先要考慮的問題,它的效果好壞或成敗與否直接影響后續(xù)的跟蹤和行為理解等后期處理效果。
目標(biāo)檢測(cè)是從圖像序列中將變化區(qū)域從背景圖像中提取出來,從而檢測(cè)出運(yùn)動(dòng)的目標(biāo),目標(biāo)檢測(cè)十分重要,它將影響目標(biāo)對(duì)象的分類、行為識(shí)別等后期處理。目標(biāo)檢測(cè)分析多個(gè)差圖像中區(qū)域之間的關(guān)系,并在原圖像中驗(yàn)證,得到運(yùn)動(dòng)的目標(biāo)和其運(yùn)動(dòng)軌跡。比如,如果已經(jīng)知道3個(gè)不同時(shí)刻的二值差圖像,若存在一個(gè)運(yùn)動(dòng)目標(biāo)的話,該目標(biāo)在這3個(gè)差圖像中的大小基本不變,其運(yùn)動(dòng)方向和運(yùn)動(dòng)速度基本不變,在3個(gè)差圖像對(duì)應(yīng)的原圖像中的區(qū)域,有基本相同的灰度分布等等。幾種常用的動(dòng)態(tài)視頻目標(biāo)檢測(cè)方法簡(jiǎn)介如下:
背景減除,背景減除(Background Subtraction)方法是目前運(yùn)動(dòng)檢測(cè)中最常用的一種方法,它是利用當(dāng)前圖像與背景圖像的差分來檢測(cè)出運(yùn)動(dòng)目標(biāo)的一種技術(shù)。它一般能夠提供相對(duì)來說比較全面的運(yùn)動(dòng)目標(biāo)的特征數(shù)據(jù),但對(duì)于動(dòng)態(tài)場(chǎng)景的變化,如光線照射情況和外來無關(guān)事件的干擾等也特別敏感。由于該模型是固定的,一旦建立之后,對(duì)于該場(chǎng)景圖像所發(fā)生的任何變化都比較敏感,比如陽光照射方向,影子,樹葉隨風(fēng)搖動(dòng)等。
時(shí)間差分,時(shí)間差分(Temporal Difference 又稱相鄰幀差)方法充分利用了視頻圖像的特征,從連續(xù)得到的視頻流中提取所需要的動(dòng)態(tài)目標(biāo)信息。在一般情況下采集的視頻圖像,若仔細(xì)對(duì)比相鄰兩幀,可以發(fā)現(xiàn)其中大部分的背景像素均保持不變。只有在有前景移動(dòng)目標(biāo)的部分相鄰幀的像素差異比較大。時(shí)間差分方法就是利用相鄰幀圖像的相減來提取出前景移動(dòng)目標(biāo)的信息的。
但在目標(biāo)運(yùn)動(dòng)緩慢時(shí),差分后的運(yùn)動(dòng)目標(biāo)區(qū)域內(nèi)會(huì)產(chǎn)生空洞,從而不能完全提取出所有相關(guān)的特征像素點(diǎn),一般不能夠完整地分割運(yùn)動(dòng)對(duì)像,不利于進(jìn)行相關(guān)分析,因此差分法很少被單獨(dú)使用。
光流,基于光流方法(Optical Flow)的運(yùn)動(dòng)檢測(cè)采用了運(yùn)動(dòng)目標(biāo)隨時(shí)間變化的光流特性,如Meyer 等通過計(jì)算位移向量光流場(chǎng)來初始化基于輪廓的跟蹤算法,從而有效地提取和跟蹤運(yùn)動(dòng)目標(biāo)。該方法的優(yōu)點(diǎn)是在所攝場(chǎng)所運(yùn)動(dòng)存在的前提下也能檢測(cè)出獨(dú)立的運(yùn)動(dòng)目標(biāo)。然而大多數(shù)的光流計(jì)算方法相當(dāng)復(fù)雜,且抗噪性能差,如果沒有特別的硬件裝置則不能被應(yīng)用于全幀視頻流的實(shí)時(shí)處理。
2、目標(biāo)跟蹤技術(shù)
目標(biāo)跟蹤(Object Tracking)就是通過對(duì)攝像頭采集到的圖象序列進(jìn)行計(jì)算分析,計(jì)算出目標(biāo)在每幀圖像上的二維位置坐標(biāo),并根據(jù)不同的特征值,將圖像序列中不同幀中同一運(yùn)動(dòng)目標(biāo)關(guān)聯(lián)起來,得到各個(gè)運(yùn)動(dòng)目標(biāo)完整的運(yùn)動(dòng)軌跡,也就是在連續(xù)的視頻序列建立運(yùn)動(dòng)目標(biāo)的對(duì)應(yīng)關(guān)系。
可采用Mean Shift算法和Particle Filter算法實(shí)現(xiàn)目標(biāo)跟蹤。
Mean Shift算法本質(zhì)上是最優(yōu)化理論中的最速下降法(亦稱梯度下降法,牛頓法等),即沿著梯度下降方法尋找目標(biāo)函數(shù)的極值。在跟蹤中,就是為了尋找到相似度值最大的候選目標(biāo)位置。
Mean Shift方法就是沿著概率密度的梯度方向進(jìn)行迭代移動(dòng),最終達(dá)到密度分布的最值位置。其迭代過程本質(zhì)上是最速下降法,下降方向?yàn)橐浑A梯度方向,步長(zhǎng)為固定值。但是,Mean Shift沒有直接求取下降方向和步長(zhǎng),它通過模型的相似度匹配函數(shù)的一階Talor展開式進(jìn)行近似,直接推到迭代的下一個(gè)位置。由此,沿著梯度方向不斷迭代收斂到目標(biāo)相似度概率目標(biāo)分布的局部極大值。
Mean Shift算法在目標(biāo)運(yùn)動(dòng)過快或背景過于復(fù)雜時(shí),迭代尋找的局部極值并不是目標(biāo)在下一幀中的最佳匹配位置。另外,Mean Shift作為最速下降法的一種,它的收斂速度并不快,且在接近最優(yōu)值時(shí),存在鋸齒現(xiàn)象。
Particle Filter算法本質(zhì)上是蒙特卡羅仿真,即通過采樣粒子來近似描述概率密度分布。跟蹤中,不可能求取下一幀中所有位置的相似度,即無法獲取相似度概率密度分布。而Particle Filter就是通過粒子采樣來近似描述這樣的分布,有了該分布就可以獲取目標(biāo)的相似度最大位置。一般是根據(jù)粒子自身的匹配程度來確定概率密度的最值。Particle Filter沒有迭代過程,它通過播散大量的粒子,通過這些粒子來獲取最值位置。另外,因?yàn)榱W硬蓸邮潜椴颊麄€(gè)相似度概率密度空間的,故其具有全局最優(yōu)性。
還可以使用如基于塔型結(jié)構(gòu)的匹配跟蹤、多子模板匹配、Kalman 濾波器、光流法等方法實(shí)現(xiàn)目標(biāo)跟蹤。
3、行為識(shí)別技術(shù)
行為識(shí)別(Behavior Understanding)是近年來被廣泛關(guān)注的研究熱點(diǎn),它是指對(duì)目標(biāo)的運(yùn)動(dòng)模式進(jìn)行分析和識(shí)別,并用自然語言等加以描述。同目標(biāo)識(shí)別與跟蹤技術(shù)相比,行為動(dòng)作識(shí)別技術(shù)是監(jiān)控領(lǐng)域的較高研究層次,在計(jì)算機(jī)視覺中是一個(gè)極具有吸引力及挑戰(zhàn)性的課題。是近年來計(jì)算機(jī)視覺領(lǐng)域和智能監(jiān)控領(lǐng)域研究的熱點(diǎn)也是難點(diǎn),但仍處于未成熟的初級(jí)階段。目前的視頻智能監(jiān)控系統(tǒng)中,盡管對(duì)于一些動(dòng)作細(xì)節(jié)還不能做到準(zhǔn)確識(shí)別,但是已經(jīng)能夠識(shí)別出物體的整體行為,比如可以識(shí)別物體的形狀、顏色、體積、運(yùn)動(dòng)軌跡、運(yùn)動(dòng)速度、速度變化等,對(duì)這些數(shù)據(jù)進(jìn)行進(jìn)一步挖掘和分析就能夠?qū)崿F(xiàn)監(jiān)控領(lǐng)域的一些特定需求,可以應(yīng)用在禁區(qū)報(bào)警、數(shù)量統(tǒng)計(jì)、醫(yī)療監(jiān)護(hù)以及環(huán)境檢測(cè)等領(lǐng)域。
在視頻行為動(dòng)作識(shí)別中,通常是預(yù)先規(guī)定好若干動(dòng)作類型(此過程由目標(biāo)數(shù)據(jù)庫(kù)所決定),然后,利用數(shù)據(jù)庫(kù)的訓(xùn)練樣本對(duì)各種動(dòng)作類型進(jìn)行特征建模,在必要的時(shí)候還要加入訓(xùn)練的部分,構(gòu)成一個(gè)動(dòng)作模型庫(kù)。也可以使用自然語言描述人的行為,實(shí)現(xiàn)對(duì)行為的識(shí)別和理解,近幾年,更多研究者傾向于使用語義描述來分析人體動(dòng)作行為,此方面的研究得到了一定的進(jìn)展。自然語言描述的核心思想是:模仿人類語言的表達(dá)方式,通過有限的詞匯的不同組合來表示具有不同意義的句子、段落與文章。在行為分析與理解領(lǐng)域中,可以把某個(gè)的圖像看成是一個(gè)視覺詞匯,或叫做視覺單詞,把視覺詞匯進(jìn)行組合就可以得到視頻的自然語言描述,由于不同行為有不同的描述,因此可以通過不同描述來區(qū)分不同的行為。
行為理解的推理中廣泛采用了基于圖像模型的推理方法,如隱馬爾科夫模型(HMM) ,動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN) ,條件隨機(jī)場(chǎng)(CRF)等;也有的研究采用其他的推理方法,如使用基于規(guī)則的決策對(duì)一系列表示動(dòng)作及對(duì)象的三元表達(dá)式進(jìn)行分類;采用模板匹配的方法,將檢測(cè)到的運(yùn)動(dòng)特征與訓(xùn)練好的樣本逐個(gè)匹配,匹配的結(jié)果即為對(duì)行為識(shí)別的結(jié)果;還可以使用有限狀態(tài)自動(dòng)機(jī),每個(gè)狀態(tài)表示當(dāng)前人體的位置,來對(duì)人的軌跡進(jìn)行分類,識(shí)別異常事件。