前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的優化主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:模式識別卷積神經網絡 google earth 應用
中圖分類號:TP39 文獻標識碼:A 文章編號:1007—3973(2012)009—087—02
隨著科技的進步,許多發明、電子產品使人們的生活更加方便。生活經常見到的有:筆記本電腦的指紋鎖、數碼相機的人像識別功能、電腦手寫板、語音錄入設備、門禁中的虹膜識別技術等等,這些設備與技術中都包含了模式識別技術。這些看似抽象的技術與算法正與其他技術一起悄然的改變人們的生活。
1 什么是模式識別
人們的許多感官功能看似簡單,但用人工的辦法實現卻比較困難。人與人見面相互打招呼。在看見對方的面部后,人能夠很快的認定這張臉是個人臉,而且我認識他,應該和他打招呼。這個看似簡單的過程其實并不簡單,我們不僅僅要識別五官,還要掃描輪廓,而且還要判斷是否認識等等。可見,很多看似簡單的認知過程,如果試圖用某一方法描述確實不宜。對人臉進行模式識別就可以解決這個看似簡單的問題。
模式識別(Pattern Recognition)是指通過用計算機對事物或現象的各種形式的(光信息,聲信息,生物信息)信息進行處理和和判讀,以對事物或現象進行描述、辨認、分類和解釋的過程,是人工智能的和信息捕獲的重要組成部分。現在被廣泛應用于計算機視覺,自然語言處理,生物特征識別,互聯網搜索等領域。
2 模式識別與google earth衛星照片
在衛星圖片中識別特定的目標,如道路,湖泊,森林等等,往往要運用模式識別技術,現在較為主流的是神經網絡識別。上一代的技術室根據RGB提取的,在提取森林或湖泊的時候,有很多干擾顏色,對衛星照片精度有很高要求。根據RGB提取效果不是十分理想,而且計算量大,對硬件有一定要求。
隨著神經網絡識別技術的發展,現在計算機可自動識別目標。不必使用特殊的衛星波段影像,小型機計算,只要從GOOGLE EARTH獲取的普通衛星影像就可以自動識別了。
Google Earth是Google公司開發推出的一款虛擬地球儀軟件,它把衛星照片、航空照相布置在一個地球的三維模型上,是一款全球地圖集成軟件。Google Earth與模式識別技術的綜合運用,使其衛星圖片在道路規劃,通信線路管理,土地勘察,遙感探測等等行業有著很大的運用。
在實際情況下對衛星圖片進行模式識別,實現起來有許多困難,光線條件、大地背景、大氣云層情況影響以及由于拍攝角度或空氣密度等原因導致照片的被照物體的幾何變形等都會對識別效果有直接影響。這些都對識別算法要求很高。本文選用的神經網絡識別方法,具有識別率高、對不規則物體識別效果好等優點,被廣泛運用在許多領域。本文使用改進的卷積神經網絡對google earth 衛星圖片進行處理,幾乎不用對照片進行預處理。這大大節省了運算時間,而且避免了二次處理后對原始文件的污染,大量原始信號被最大程度地保留。
3 模式識別與卷積神經網絡
卷積神經網絡CNN(Convolutional Neural Networks)是近年發展起來并引起廣泛重視的一種高效識別方法。神經網絡是受動物神經系統啟發,利用大量簡單處理單元互聯而構成的復雜系統,以解決復雜模式識別與行為控制問題。目前,CNN已經成為國內外科學家研究的重點方向,特別是在模式識別領域。它的優點是不需要對圖像進行復雜的預處理,成為大家廣為使用的方法。CNN的基本結構一般包括兩層:(1)特征提取層。每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,與其他特征間的位置關系也隨之確定下來。(2)特征映射層。網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡的激活函數,使得特征映射具有位移不變性。
4 卷積神經網絡在衛星圖片識別中的應用
為提高google earth衛星照片中目標的識別率,創造性使用卷積神經網絡進行模式識別,其主要部分基本設計結構如圖1所示。
圖1中,整個結構模仿動物的神經結構,大量的單一識別單元被關聯成一個網路。 C層則是由復雜(complex)神經元組成的神經層,它的輸入連接是固定的,不可修改,顯示接收信心被激勵位置的近似變化。網絡中C層的最后一層為識別層,顯示模式識別的結果。S層為簡單(simple)神經元組成的神經層,完成主要信息提取,其輸入連接是不是固定的,可在訓練的過程中不斷修改。這個系統進過不斷的訓練,輸入照片的格式和大小會自動地被識別,大大節省了前期的工作時間,提高了識別速度。
在訓練集中同時需要常規積極樣本和消極樣本,樣本包括衛星圖片中房屋和道路的1000個圖像目標積極訓練集。大多數基于學習方法的目標物體識別使用一個大約為10?0的最小輸入窗口,好處是可以做到不遺漏任何重要信息。為了達到穩定的效果,對所有原有的訓練樣進行色彩轉換和對比還原轉換,得到的積極樣本訓練集有2400個目標樣本。
5 實驗結果
分兩個步驟進行試驗,第一步對衛星圖片進行定位和裁剪等預處理,第二步選取合格衛星圖片200個樣本圖片訓練卷積神經網絡,訓練后得到各層3個主要數據:閾值、權值及神經元細胞平面數,然后使用優化后的神經網絡識別機對200個測試樣本進行檢查,其正確的識別率達到97%。實驗要注意訓練的時間,系統過度訓練后,識別率會不斷提高,但訓練時間的不斷增加,測試失敗率到最小值后出現及其微細震蕩,造成識別率的小幅波動。(見圖2)
實驗表明,卷積神經網絡應用于衛星圖片目標識別是完全可行的,訓練樣本越豐富則則識別率越高。與傳統模式識別方法相比有更高的識別率和抗干擾性。本文采用一種改進的基于卷積神經網絡的識別機制對衛星照片中的目標物體進行識別。該識別方法通過對目標物體圖片的學習,優化了系統中的關鍵參數的權值。大大提高了目標物體的識別率。
參考文獻:
[1] 高雋.智能信息處理方法導論[M].北京:機械工業出版社,2004.
[2] 高雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003.
[3] 邊肇祺.模式識別[M].北京:清華大學出版社,1987.
關鍵詞: 列車車號; 車號識別; 卷積神經網絡; LeNet?5
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前貨運列車車號識別系統[1?2]主要是基于RFID技術實現的,但是,由于該系統的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統無法保證車號識別的準確性。為此,研究者開發了基于圖像的貨運列車車號識別系統,系統根據視頻采集到的圖像,利用模糊集合論[1?2]、人工神經網絡[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導致的單個字符斷裂,或者列車長期的野外運行導致的車廂污損,車號字符的殘缺等現象,這使得目前的基于圖像的貨運列車車號識別系統的魯棒性與識別率還有待進一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經網絡,該網絡避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網絡,該網絡就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結合起來,通過綜合評價和學習,并在不斷的反向傳播過程中選擇和優化這些特征,將特征提取變為一個自學習的過程,通過這種方法找到分類性能最優的特征。LeNet?5已經成功應用于銀行對支票手寫數字的識別中。
為此,本文將卷積神經網絡LeNet?5應用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,并在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。
1 LeNet?5的改進
卷積神經網絡可以從很多方面著手改進。諸如多層前饋網絡,可以考慮在誤差函數中增加懲罰項使得訓練后得到趨向于稀疏化的權值,或者增加一些競爭機制使得在某個特定時刻網絡中只有部分節點處在激活狀態等。本文主要從卷積神經網絡的層次化以及局部鄰域等結構上的特點入手,考慮卷積神經網絡中各層特征圖數量及大小對網絡訓練過程及識別結果的影響。
以LeNet?5結構為基礎,去除掉LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,得到改進后的神經網絡。在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。定義一種新的網絡模型,將其命名為LeNet?5.1,該網絡結構與LeNet?5基本相同,主要做出以下改變:
(1) 將原先LeNet?5所采用的激活函數由雙曲正切函數修改為Sigmoid函數,此時,網絡中所有層的輸出值均在[0,1]區間內,輸出層的最終結果也將保持在[0,1]區間內。
(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(RBF)網絡結構。
(3) 簡化原LeNet?5中的學習速率。原LeNet?5網絡中采用的學習速率為一個特殊的序列,而在本網絡中將學習速率固定為0.002。
(4) 輸入數據原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。
之所以做以上相關改動,是因為原始的LeNet?5就是專門為手寫字符識別任務而特殊設計的,這就造成了LeNet?5網絡中相關的預處理及參數的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數中參數的選擇,學習速率定的速率序列以及數據預處理殊的填充方式等,這些特定的設計使得LeNet?5在其他任務的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務的較好的值,造成了LeNet?5不能快速的應用于除手寫字符外其他的識別任務中。
2 改進后的網絡對列車車號字符的識別
車號經過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識別的字符圖像質量不高,有的數字字符出現殘缺、斷裂或者嚴重變形。這都給識別任務提出了一定的挑戰。
本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓練集,另外選取400幅圖像作為測試集。用上一節提出的LeNet?5.1網絡進行訓練,誤分類率曲線如圖2所示。可以看出,在LeNet?5.1訓練過程中,訓練MCR(Misclassification Rate)和測試MCR的變化過程相對穩定,驗證了改進后網絡結構的合理性。在經過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩定,即16次迭代之后,網絡達到了當前的最佳訓練效果,達到了收斂狀態。這時,訓練MCR為0.5%,測試MCR是5.75%。
訓練過程中的誤分類率曲線
而針對相同的數據,采用原始的LeNet?5進行訓練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經過了18次的迭代后,測試MCR才達到相對穩定的狀態,降至6%,最終的訓練MCR為1%。相比之下,經過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務而特殊設計的一些預處理及函數選擇等固定模式,并且精簡了網絡結構,使得LeNet?5.1在列車車號的識別方面具有了更快的訓練速度和收斂速度,另外,最終達到的準確度也有所提升。
在證明了改進后的LeNet?5.1網絡的合理性之后,增加訓練圖像的規模,采用10 000幅車號數字字符圖像用來訓練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓練數據對車號識別中常用的三層BP網絡進行訓練和測試,這里采用的BP網絡隱含層節點數量為450,學習速率采用0.01。實驗結果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網絡的識別率比BP網絡的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優于傳統的BP神經網絡。
3 針對車型號字母識別而改進的神經網絡及其結果
貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯數字字符之外,還有很多表示車種及車廂材質等屬性的英文字母,這些英文字母同樣采用卷積神經網絡來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網絡的性能,后期對全車型進行識別。
3.1 常用列車車型的識別
在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數字以及最后代表車廂材質等屬性的字母進行識別。考慮到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經網絡分別用來識別數字和字母,由于之前已經解決了數字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變為:K,H,A,E,AK和BK。由于識別種類的減少,可以對網絡模型LeNet?5.1進行相應的簡化,命名該模型為LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基礎上進行改動而得到的:
(1) 卷積層C1的特征圖由6個減少為4個,相應地,S2層的特征圖也由6個減少為4個。
(2) 卷積層C3的特征圖由16個減少為11個,相應地,S4層的特征圖也由16個減少為11個。
(3) 卷積層C5的特征圖個數由120個減少為80個。
(4) 輸出分類的數目由10個減少為6個。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數據,C3層相比S2層具有更好的對位移、扭曲等特征的不變性。
相比LeNet?5.1,LeNet?5.2將網絡層中的特征圖數量做了相應的削減,減少了網絡中可訓練參數的數量。
實驗數據來自以上提到的7類常用車型。經過前面過程的定位和分割之后,將分割之后代表車廂材質等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質屬性的字母共800幅,其中400幅用作訓練數據,另外400幅用作測試數據。
圖5為LeNet?5.2使用以上數據訓練過程中得到的MCR曲線圖。由圖5中可以看出,在經過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩定,而對應的訓練MCR為0.75%。
3.2 全車型識別
經過對鐵道行業標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統計,除了10個阿拉伯數字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。
訓練過程中的誤分類率曲線
針對車型號的識別需求,本文在LeNet?5.1的基礎上提出了一種新的網絡模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎上對網絡中各層的特征圖數量進行擴充:
(1) 卷積層C1的特征圖由6個增加至8個,相應地,S2層的特征圖也由6個增加至8個。
(2) 卷積層C3的特征圖由16個增加至24個,相應地,S4層的特征圖也由16個增加至24個。
(3) 卷積層C5的特征圖個數由120個增加至240個。
(4) 輸出層神經元的個數由10個增加至32個。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。
與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數量也做了相應的增加,以增加整個網絡的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經過車號定位和分割之后,將單個的數字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓練圖像庫和測試圖像庫。
由于LeNet?5.1各層的特征圖數量多,因此該網絡涉及到的可訓練參數也大大增加,這也意味著需要更多的數據樣本用于網絡訓練。若訓練集和測試集規模依然采用跟前面實驗中一樣的各400幅,訓練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩定的分類結果,訓練過程無法收斂。
網絡訓練過程中無法收斂的主要原因在于相比網絡中過多的需要訓練確定的權值,數據集規模過小,已然不能滿足學習的要求。從特征圖角度來看,網絡無法通過不充足的訓練樣本學習到穩定而有效的特征圖組合,從而導致了網絡不收斂。要解決這個問題需要加大測試樣本的數量。
為了訓練和測試LeNet?5.3,對數據集進行了擴充:訓練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經過32次迭代之后網絡趨于收斂,并且達到了較好的識別率。
4 結 語
本文針對貨運列車車號識別的難題,提出了基于卷積神經網絡LeNet?5改進后的識別方法,主要對卷積神經網絡中各層特征圖數量及大小進行了改進。且與傳統的BP網絡進行了比較,從實驗結果可以看出,改進后的卷積神經網絡無論在魯棒性還是識別率以及識別速度上都優于BP網絡,可以很好地勝任列車車號識別任務。
參考文獻
[1] 宋敏.鐵路車輛車號自動識別系統的研究和開發[D].天津:河北工業大學,2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
>> 用于腦運作分析的前向網絡樣本重組樹生成算法研究 基于三角構成規則的加權有向網絡拓撲生成算法 適用于網絡漸進傳輸的多分辨率曲線生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網絡優化 基于全卷積神經網絡的圖像縮略圖生成算法 傳感器網絡中一種基于編碼的MAC生成算法 數據庫關鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優化 AOS自相似業務流等時幀生成算法的Matlab仿真分析 關于傳統空間緩沖區生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統中試卷生成算法的改進 一種可用于腦神經網絡分析的有向網絡分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發式雙代號網絡圖自動生成算法 常見問題解答 當前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續化及其應用[C].畢業論文,2004.
[31]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[J].數字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經網絡分析的有向網絡分解算法[C].第八屆海內外華人神經科學家研討會論文集.北京:科學出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運作分析的前向網絡樣本重組樹生成算法研究[C].電子技術與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學碩士,中國神經科學學會會員,工程師,近年在亞組委信息技術部完成核心信息系統――計時記分和成績處理系統項目實施管理方面的工作,其中計時記分系統投資一億。主要研究方向為計算機科學與工程、人工智能、神經生物學。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運會組委會信息技術部 廣東省廣州市 510000
3.廣州生產力促進中心 廣東省廣州市 510000
4.廣州市科學技術信息研究所 廣東省廣州市 510000
5.廣州市科技創新委員會 廣東省廣州市 510000
關鍵詞:深度學習;器材管理;深度信念網絡;效率;損耗
1.引言
深度學習是機器學習的延伸和進一步發展,它基于機器學習,從廣義上講是機器學習的一種,但與機器學習有較大不同,深度學習的模型和人腦皮層結構有較大相似,從某種意義上講,深度學習是智能學習,可對復雜數據進行有效處理[1]。深度學習模型既可以作為特征提取器,也可以用作特征分類器,并且二者可以同時應用,直接得到想要的分類結果。器材有成千上萬種,每種器材的性能、數量、有效期、生產廠家這些基本要素Ю戳舜罅康氖據,而深度學習應用于大數據挖掘方面,實踐中已經取得較好的效果。現在是一個“大數據+深度學習”的時代。本文研究在器材管理中如何運用深度學習,來探尋器材管理中蘊含的內在規律,通過得出的管理規則進行器材管理,來提高器材管理的信息化水平。
2.深度學習的典型模型
深度學習基礎是受限玻爾茲曼機(RBM),玻爾茲曼機( BM)可以認為是一種能量模型。即參數空間中每一種情況均有一個標量形式的能量與之對應。對全連通玻爾茲曼機進行簡化,其限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨立,即為受限玻爾茲曼機。深度學習的典型模型主要有:自動編碼器(AE),卷積神經網絡(CNN),深度信念網絡(DBN)三種[2]。
(1)自動編碼器
自編碼器的基本原理:將輸入的原始信號進行編碼,使用編碼得到的新信號重建原始信號,求得重建的元信號與原始信號相比重建誤差最小。它的優點是可以有效的提取信號中的主要特征,減少信息冗余,提高信息處理效率。模式分類中經常用到的以下方法:K均值聚類、稀疏編碼、主成分分析等均可理解為是一個自動編碼器。
(2)卷積神經網絡
卷積神經網絡(CNN)善于提取數據局部特征,模型復雜度較低,權值的數量較少,它組合局部感受野(滑動窗口)、權重共享(減少自由參數數量)、和空間或時間上的子采樣這3 種結構去確保平移和變形上的不變性。
(3)深度信念網絡
深度信念網絡(DBN)主要采用貪婪逐層訓練方法。簡言之通過預先訓練與反向調節來訓練整個DBN網絡:在預先訓練階段,先逐個訓練每一個受限玻爾茲曼機RBM,逐層疊加,并將下一層的RBM 的輸出作為上一層RBM 的輸入; 在反向調節階段可以采用BP訓練,通過誤差函數進行反向調節.
3.基于深度信念網絡(DBN)的器材管理方法
器材管理的目的是在最大器材利用率下所用資金最少,耗費管理人員精力最少。從模型分析上來說,這是一個求最優化模型的問題。深度信念網絡在求取最優化方面具有一定的優越性。深度信念網絡(DBN)的優點:(1)采用并行結構,可同時處理多組數據,計算效率得到較大提升,對處理大數據有優勢;(2)可以用較小的模型參數波動得到較高的分類結果,模型穩定性較好[3]。
對器材管理者來說如何制定性價比最高的器材采購方案,最優的器材下發方案,最優的器材存儲方案是急需解決的三個問題。
器材采購方案:其制定主要基于器材的價格,儲存年限,采購批次,采購量,售后服務等因素,針對每種器材的上述指標進行量化打分,再根據每種器材的側重點分配量化系數,整合成10種數據輸入。將這些數據輸入到訓練好的深度信念網絡(DBN)中得出每種器材的采購點數,根據點數決定采購的器材數量、品種、規格和型號。
器材的下發方案:器材的下發要考慮不同單位的需求,現有庫存情況,近期器材補充情況,近期大項工作需求情況,根據不同情況對不同單位,不同器材,具體工作設定不同顏色的標簽,通過標簽整合,將這些數據輸入到訓練好的深度信念網絡(DBN)中得到具體的下撥方案。
器材儲存方案:儲存主要包括使用單位庫存情況,倉庫庫存情況,供貨單位協議代儲情況,運用深度信念網絡(DBN)對器材消耗情況進行分析,進而得出,單位庫存的數質量,使用單位庫存的數質量,供貨單位協議代儲數質量,使三者處于一個最優化狀態,既不影響使用,又可降低庫存空間的需求,減少資金占用。
4. 實驗結果
本文采用深度信念網絡(DBN)對1000種器材采購、運輸、庫存、消耗使用以及不同品牌的通用器材采購成本進行了實驗分析,通過深度信念網絡(DBN)的優化,采購效率提高10%,運輸時間縮短20%,庫存量降低15%,使用消耗準確度提高5%,采購成本降低18%。
5. 未來發展與展望
深度學習方法在器材管理中的應用還處于初步探索之中,但是初步運用表明,其在“大數據+云計算”時代,對提高器材管理的信息化水平具有較大的實用價值和經濟價值,用于器材管理的深度學習模型,還較為簡單,還有進一步發展的空間,實踐應用中對器材數據特征的提取還有待加強,只有深刻的理解器材管理的特征及需求,才能有針對性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一層樓,使器材管理跟上信息化發展的步伐。
參考文獻:
[1] 孫志軍,薛磊,許陽明.基于深度學習的邊際Fisher分析特征提取算法[J].電子與信息學報,2013,35(4):805-811.
[2] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究, 2012, 29( 8) : 2806 - 2810.
[3] 胡曉林,朱軍.深度學習―――機器學習領域的新熱點[J].中國計算機學會通訊, 2013,9( 7) : 64 - 69.
作者簡介:
康克成(1981.04-)河北昌黎人,研究生,碩士,工程師,中國人民92819部隊,研究方向:信息與通信工程;
王強(1981.02-)山東膠州人,本科,助理工程師,中國人民92819部隊,研究方向:裝備管理;
關鍵詞:計算機工程;視覺領域;深度學習技術
引言
計算機視覺簡言之即是依靠電子設備成像來代替生物視覺系統,隨后依靠提前寫好的程序對獲取的圖像信息實施處理。該技術的短期應用目的在于完成相對簡單的智能視覺工作,而深度學習技術在計算機視覺領域的應用,在很大程度上豐富了其功能,提高了識別效率,讓其能夠在更多行業發揮出自身價值。
1計算機視覺領域的深度學習技術
1.1圖像分類中的深度學習技術
基于深度學習技術,卷積神經網絡得到了進一步的發展,其應用范圍也更為寬泛,例如說在圖像分類中的運用。圖像分析需要對圖像實施掃描分析,隨后對其具體類別予以劃分,更加注重其整體語義。目前相對普遍進行圖像分類的數據集為ImageNet,其中囊括了非常豐富的內容,存儲了近1500萬個圖像的URL并將圖像劃分為數萬余個類型。ImageNet每年組織開展的大規模視覺識別挑戰賽(ILSVRC)中,圖像分類算法與技術也不斷創新,圖像分類的準確性也持續提升。ImageNet數據集表現出規模大、類型多的突出特點,所以更加適用于遷移學習,即是把部分核心技術或結構拓展應用到各個領域,對于視覺領域的深度模型來說,能夠把模型內的網絡結構和參數直接共享到其他數據集,從而對數據實施微調。圖像分類屬于計算機視覺領域最為基礎的環節,對于圖像分類模型創建和數據分析處理經驗也能夠遷移應用到其他領域中。
1.2目標檢測中的深度學習技術
目標檢測相對于圖像分類而言表現出更多的復雜性,主要任務是在囊括多種不同類型物體的圖像內精確定位和識別某一物體,恰恰是出于這一目的,深度學習技術在目標檢測中的應用更為復雜,要實現更加精準的效果也相對更難。近年來針對目標檢測的算法日益更新,如優化后的R-CNN算法,是借助于卷積神經網絡思想,對物體進行分類,提取物體特征。而SelectiveSearch算法的出現有了進一步的創新和突破,有效促進了檢測準確性的提高,這也給通過卷積神經網絡進行目標檢測帶來了更多可能性,隨后的FastR-CNN算法極大地促進了目標檢測效率的提升,該算法對提取候選區的問題予以優化,大大減少了候選區提取和目標檢測過程的時間。目標檢測網絡以FastR-CNN算法作為支撐,于輸出位置設置滑動窗同時和候選區域網絡實施連接,目標檢測的關鍵在于卷積神經網絡,依靠它把各個點的特征進行提取,再借助回歸算法獲得對應范圍出現目標的概率[1]。
1.3人臉識別中的深度學習技術
人臉識別主要是借助相應算法對人臉特征實施提取,因為其建立的人臉模型表現出一定的不穩定性,因此模型建立往往也表現出一定的難度,相對于建立剛體模型而言更為困難。人臉識別通常來說涉及人臉檢測定位以及特征提取兩個方面,人臉檢測定位是基于背景圖像中將人臉目標分割出來,實施歸一化處理,而人臉特征提取算法不變。前者存在的技術難點是人臉目標具有多樣性以及背景圖像具有復雜性,所以對背景情境實施合理假設并予以簡化是十分關鍵的。與此同時,高維空間人臉模型的建立較為復雜,精確度估算難度較大,人臉特征提取的技術難度是因為人臉屬于彈性模型,其難度超過剛體模型。一般來說,較為常見對人臉特征實施提取與識別的方法有幾何特征法、特征臉算法以及彈性模型法,CNN算法和過去的特征提取算法比起來表現出更高的穩定性和適用性,同時能夠有效抵抗外部干擾,促進人臉識別技術的推廣應用。
2應用實例
2.1安防領域的應用
深度學習技術在計算機視覺領域中的應用可以為安防行業提供更佳的解決方案,比如說人臉識別技術的應用,很多大型企業如Facebook、騰訊、阿里巴巴等都將非常關注和重視。作為深度學習技術在計算機視覺領域應用的重要內容,人臉識別在安檢以及反恐等領域中也能夠發揮出很好的效果。與此同時,對行人角度的REID技術實施研究,依托于深度學習強化目標檢測,對目標特征實施提取和刻畫,能夠為異常行為監控和跟蹤帶來支持[2]。
2.2無人駕駛領域的應用
對于無人駕駛領域來說,選擇激光或雷達這類傳感器的成本更高,基于深度學習的計算機視覺技術也能夠提供新的解決方案。依靠攝像機對視頻畫面進行采集,對獲取到的圖像實施分析,提供類似于前車碰撞預警等功能。在這一過程中,計算機視覺技術可以實現對目標的檢測識別、對目標車輛的跟蹤分析、對車道線是否偏離進行檢測等。基于深度學習技術的檢測識別表現出更加強大的優勢,現階段深度學習芯片日益增多,對于無人駕駛技術的發展也帶來了更加有力的支持。
2.3智能家居領域的應用
過去的很多智能家居產品一般都是依靠智能手機藍牙或者WiFi等途徑來實現對家居產品的控制,這一方案即便能夠做到家居智能化,但其水平依舊有待提高。基于深度學習技術,能夠有效促進智能家居行業的更新發展,除開語言、語音識別之外,還能夠利用計算機視覺技術實現人際交流與互動,比如說手勢識別控制。2.4教育領域和圖片搜索領域的應用基于深度學習的計算機視覺技術也能夠在智慧教育中得以普及應用,如近年來很多新的拍照解題App,使用者只需要利用手機相機拍照上傳即可獲得相關題目的分析解答,促進學習者學習效率的提升。此時視覺技術包括了對文字的檢測與識別,另外針對個人簡歷識別、文檔識別等方面也能夠進行拓展應用。同時計算機視覺技術還可以在圖片搜索領域中得以應用,使用者通過拍攝上傳相應的圖片,即可從數據庫中找出與原圖相似的圖片,深度學習屬于一種非常高效的技術手段,能夠提供更加快速高效的圖像檢測功能,結合圖像搜索引擎,為用戶帶來更加便捷的服務[3-5]。
2.5醫療影像數據中的應用
醫學影像直接關系到對患者疾病診斷的準確性,對于放射科的醫務人員來說,依靠醫學影像能夠促進診斷效率的提升。現階段國內外諸多醫學專家隊伍,在心血管、腫瘤、神經內科以及五官科等都建立了精準深度學習模型,極大地推動醫療水平的提升,為廣大患者帶來了更加便捷和高效的醫療服務。基于深度學習技術的計算機視覺在醫療影像數據中的應用主要集中在如下幾個方面:(1)能夠提供臨床診斷輔助等醫療服務;(2)依靠數據分析技術,能夠在很大程度上促進醫療機構經營管理水平的提升;(3)在醫學影像中的應用,能夠讓醫務工作者更加直觀便捷地獲取患者影像;(4)深度學習技術能夠為醫療大數據的可視化帶來便利;(5)在藥企研發工作中的應用,可以處理好過去一直以來藥物研發周期長和成本居高不下的問題;(6)在健康管理領域中的應用,借助于可穿戴設備來對個人健康數據實施監測,進而對疾病風險予以提前預測。
關鍵詞:視覺注意;自頂向下;顯著性;對象信息;卷積神經網
中圖分類號:TP391.41
文獻標志碼:A
文章編號:1001-9081(2016)11-3217-05
0 引言
視覺注意機制的研究是探索人眼視覺感知的重要一環。在過去幾十年中,如何用計算模型模擬人眼視覺注意過程一直是核心問題。盡管取得了很大的進步,但是快速準確地在自然場景中預測人眼視覺注意區域仍然具有很高的挑戰性。顯著性是視覺注意的一項重要研究內容,它反映了區域受關注的程度。本文的研究著眼于顯著性計算模型,更多模型對比和模型分類可以參考Borji等[1]的文章。視覺注意存在兩種機制:自底向上(Bottom-up)和自頂向下(Top-down)。過去的研究中,大多數的計算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計算模型開創性工作源自于文獻[2]的Itti模型,該模型是很多其他模型的基礎和對照基準,它通過整合多種低層次特征,如顏色、亮度、方向等,給出一個顯著度的概率分布圖。Harel等[3]在Itti模型的基礎上引入圖算法,通過計算節點間特征值相似性和空間位置距離進行差異性度量獲取顯著圖。近年來隨著深度學習技術在目標識別領域的成功應用[4],研究者們對特征學習產生了更多的興趣。Borji等[5]通過稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結合局部和全局統計特性計算圖像塊的稀有性(rarity),稀有性反映了當前圖像塊中心位置的顯著性。Vig等[6]通過訓練多個神經網絡獲取層次特征,然后自動優化特征組合。特征提取的過程可以看作是一種隱式空間映射,在映射空間中使用簡單的線性模型進行顯著或非顯著的分類。以上學習方法獲得的特征都是一些低層次特征,對圖像中的邊緣和特定紋理結構敏感。此外,部分研究人員希望從數學統計和信號處理的角度來度量顯著性。Bruce等[7]根據最大化信息采樣的原則構建顯著性模型。Li等[8]總結了多種基于頻域的視覺注意研究工作,提出了一種基于超復數傅里葉變換(Hypercomplex Fourier Transform)的視覺注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數據驅動的顯著性模型,模擬人眼視覺注意過程中自底向上的機制。由于人眼視覺注意過程中不可避免地受到知識、任務、經驗、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺注意研究受到更多的關注。現有模型整合的自頂向下信息可以分為三類:任務需求、場景上下文和對象特征。
Borji等[9]提出了一種構建任務驅動的視覺注意模型的聯合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對場景主旨進行建模,使用場景主旨引導視覺注意的轉移。考慮到任務需求和場景上下文建模的復雜性,研究人員將對象特征視為一種高層次的知識表示形式引入視覺注意模型中。Judd等[12]和Zhao等[13]通過將低層次特征和對象特征整合在一個學習框架下來獲得特征整合過程中每張特征圖的疊加權重,但是模型使用的對象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過程中添加了更多特征并且結合了其他顯著性模型的結果,最后用回歸、支撐向量機(Support Vector Machine, SVM)、 AdaBoost等多種機器學習算法結合眼動跟蹤數據進行訓練。實驗結果表明對象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級、對象級和語義級三個層次,并重點探索對象信息和語義屬性對視覺注意的作用;然而,模型中的對象級和語義級特征是手工標定的,因而不是一種完全意義上的計算模型。
總的來看,雖然部分模型已經使用對象特征作為自頂向下的引導信息,但是在對象特征的獲取和整合上仍有很大的局限性。首先,對不包含特定對象的場景適應性較差;其次,對象特征描述困難,通常是通過特定目標檢測方法獲取對象特征,計算效率低下;此外,對象特征的簡單整合方式不符合人眼的視覺感知機制。本文提出了一種結合深度學習獲取對象特征的視覺注意計算模型,重點研究了對象級特征的獲取和整合方法。算法結構如1所示,其中像素級突出圖獲取采用現有視覺注意模型的方法,對象級突出圖獲取采用本文提出的基于卷積神經網(Convolutional Neural Network, CNN)的特征學習和基于線性回歸的特征整合方法。實驗結果表明,對象級特征的引入可以明顯提高顯著性預測精度,預測結果更符合人類視覺注意效果。
1 對象信息獲取
1.1 對象特征
大量實驗證據表明對象特征引導視覺注意的轉移。視覺注意中引入對象特征是為了獲得圖像中對象位置等信息,目的與計算機視覺中的目標檢測類似。因而,已有的視覺注意計算模型的對象特征通常是通過特定目標檢測方法獲得。其中,Viola&Jones人臉檢測和Felzenszwalb車輛行人檢測是最常用的方法。文獻[12-14]均使用此類方法引入對象特征。由于這一類特征針對特定對象樣本進行設計和訓練,因而推廣能力不強。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當前對象區域的正樣本的數目;area()表示對象區域面積。li衡量當前對象單位面積受關注的程度,對象單位面積受關注程度越高,其在對象整合過程中的權重應越高,因而li與疊加權重成正比。
式(4)通過一個線性回歸模型對已有樣本數據進行訓練,獲得對象整合疊加權重W:
L=WF(4)
其中:F={F1,F2,…,FN}為訓練樣本數據集合;L={l1,l2,…,lN}為訓練樣本標簽集合。
測試時根據式(5)~(6)獲得對象級突出圖:
3 顯著圖生成
視覺注意是自底向上和自頂向下兩種機制作用的結果。完全使用自頂向下的對象特征進行顯著區域預測有一定缺陷,主要表現在以下幾個方面:首先,知識是對訓練樣本數據的抽象表示,由于神經網絡的規模和訓練樣本中對象種類的限制,場景中部分對象對應的特征沒有被抽象在網絡結構中;其次,部分不具有明確語義的區域被錯誤地認為是對象,對視覺注意形成錯誤的引導;另外,人眼視覺注意轉移的生理學機制并不清楚,興趣區可能落在不具有對象特征區域中。因此,使用像素級特征給出低層次顯著性信息是必要的。
視覺注意模型中常用的像素級特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級特征獲取像素級突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺注意顯著圖;N()為歸一化操作;λ控制對象級突出圖與像素級突出圖的相對權重,通過實驗分析可知λ=0.4時效果較好。當圖像中不存在顯著物體或無法獲得高置信度的對象信息時,圖像任意位置Sobj(i, j)=0,此時完全由像素級特征驅動的視覺注意引導。
4 實驗結果及分析
本次實驗是以Visual Studio 2012為實驗平臺,選取OSIE和MIT數據集作為實驗數據。OSIE數據集包含700張含有一個或多個明顯語義對象的圖片以及15名受試者的眼動跟蹤數據,此外該數據集還提供了語義對象統計及人工標注的精確對象區域。MIT數據集包含1003張自然場景圖片以及15名受試者的眼動跟蹤數據。這兩個數據集是當前視覺注意研究領域中較大的數據集。為了驗證本文方法的準確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺注意方法進行對比。
對比實驗中使用的評價指標為ROC(Receiver Operating Characteristic)曲線,實現方法與文獻[12,15]相同。圖6~8為實驗對比結果,顯著區域百分比是通過對歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當前落入顯著區域的樣本占所有樣本的比例。通過變化顯著區域百分比獲得ROC曲線。為了更直觀比較算法效果,實驗結果圖中標注了每種算法的AUC(Area Under Curve)值,AUC值通過計算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預測結果越準確。
圖6為利用對象級突出圖作為顯著圖在OSIE數據集上的實驗結果。相對于RCNN算法, fasterRCNN算法使用了更深層次的網絡結構和更多對象類別的訓練樣本,具有較高的對象位置預測準確率和對象檢出率。實驗分析可以看出,使用fasterRCNN算法生成對象級突出圖可以更好進行顯著性預測。同時,人臉特征(FACE)的引入進一步提升了預測準確性,從一個側面說明了對象性信息對視覺注意的轉移具有引導作用。
圖7是多種視覺注意算法在OSIE數據集上的ROC曲線,可以看出本文方法實驗效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準確率較差。圖中對象級特征曲線為使用fasterRCNN結合人臉特征生成對象級突出圖獲得,由于該方法完全使用自頂向下的對象特征,顯著性預測準確率明顯弱于其他方法,因而證明了引入像素級特征必要性。圖8為MIT數據集上的實驗結果,本文方法和Judd算法為最好的兩種方法,實驗結果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對象特征,可以看出整合了對象特征的方法相對于完全自底向上模型有明顯優勢。
圖9中給出了多種算法顯著圖的直觀對比。與其他方法強調對象邊緣不同,本文結合了對象信息的方法可以有效突出圖像中的完整對象區域。
5 結語
本文提出一種結合對象信息的視覺注意方法。與傳統的視覺注意整合對象方法相比,該方法利用卷積神經網學到的對象特征,獲取圖像中對象位置等信息;然后通過一個線性回歸模型將同一幅圖像的多個對象加權整合,獲得對象級突出圖;最后,根據視覺注意的層次整合機制,將低層次特征和對象特征進行融合形成最終的顯著圖。本文方法在不同數據集上的準確率要高于現有模型。針對包含明顯對象的圖像,本文方法克服了部分現有模型由于邊緣強化效果導致的顯著區域預測不準的問題。本文方法仍然存在一定局限性,未來的工作將嘗試非線性對象整合以及增大訓練樣本數量和網絡規模以獲取更多種對象特征。
參考文獻:
在國內,百度DuerOS 2.0,希望成為新標桿,阿里ET大腦又開啟新征程。
國外
谷歌:正式TensorFlow Lite可在移動設備上運行深度學習
今年5月,在GoogleI/O開發者大會上,Google宣布了一個專門針對移動設備優化系統的TensorFlow新版本。11月,正式了TensorFlow Lite。
據了解,這款被稱為TensorFlow Lite的軟件庫,是可在移動設備上運行的深度學習工具,它允許開發人員在用戶的移動設備上實時運行人工智能應用。此外,自TensorFlow Lite正式公布以來,已經出現了多個安裝在移動設備上具有類似功能的學習軟件庫,包括蘋果的CoreML、Clarifai人工智能云端訓練服務,以及華為Mate10使用的麒麟970人工智能處理器。
亞馬遜:AWS re:Invent 2017大會AWS云推出新品EKS
11月,在亞馬遜舉辦的AWS re:Invent 2017大會上,公司了22款新品,分別涉及計算能力、數據庫、機器學習、智能硬件和IOT等領域,尤其是在計算能力、數據庫方面對AWS云服務進行了升級。
其中,AWS云推出了新品EKS,是AWS云上托管的Kubernete容器服務,不僅兼容多云環境,還具備高可用性、自動部署,自主升級等優勢,并可與AWS上其他服務集成,兩個平臺可無縫集成,在ECS中的應用同樣可以使用AWS其它服務。
FB:Pytorch 0.3實現多方優化增加對ONNX支持
今年初,Facebook在機器學習和科學計算工具Torch的基礎上,針對Python語言了一個全新的機器學習工具包PyTorch。日前,這款工具包又迎來了它的0.3.0版本,此版本增加了多個函數功能,多方面性能均有所提升。
其中,0.3版本中刪掉了Variable.reinforce()等隨機函數,用torch.distributions包來代替。新功能包括構建了一個in-built Profiler,能對模型進行瓶頸分析,同時支持CPU和CUDA模型;增加Higher order gradients模塊;以及優化器中增加了add_param_group函數,能在構建好的優化器中增加新的參數組。除此之外,還增加了新的張量函數和功能,在新版本中,能通過ONNX將模型遷移到其他框架上。
IBM:強化AI實力Deep Learning Impact軟件工具
11月,IBM公布了一款最新軟件Deep Learning Impact,其幫助用戶開發的AI模型可使用流行的開源、深度學習框架,例如TensorFlow和Caffee。12月,這款工具被添加到IBM的Spectrum Conductor軟件中。
除了軟件,IBM還推出了為AI量身定制的基于Power9處理器的新系統。據了解,該系統可以在Power9 CPU和硬件加速器(例如GPU和FPGA)之間加速傳輸數據。此外,Power9將成為首個片上支持最新高速連接器(包括Nvidia下一代NVLink、OpenCAPI 3.0和PCIe 4.0)的商用平臺。
國內
百度:DuerOS 2.0搭載AI硬件渡鴉raven H樹立新標桿
在今年的百度世界大會上,主打下一代人機交互的DuerOS迎來一次重大升級,推出了2.0版本。據官方資料,DuerOS 2.0主要帶來了兩個變化:其一,是小度智能設備開放平臺的升級;其二,則是小度技能開放平臺的全新。至此,基于語音交互,DuerOS形成了兩個開放式平臺,可以對接設備開發商、生態合作伙伴、線上線下服務提供商。
此外,百度世界大會上同時了人工智能硬件產品渡鴉raven H,這款產品通過搭載DuerOS 2.0,在功能和用戶體驗上樹立了新的標桿。
騰訊:騰訊云正式Supermind用人工智能方式實現網絡規劃
11月,騰訊云正式SUPERMIND智能網絡產品。據介紹,相比此前網絡產品,SUPERMIND智能網絡將擁有高性能、全球互聯、智能化等三大特點。
據了解,用人工智能方式實現網絡規劃、建設以及運維的全流程,是騰訊云SUPERMIND網絡產品最大的亮點。騰訊云SUPERMIND智能網絡能夠結合幾萬條線路特征智能規劃,通過歷史用量分析、網絡路徑分析、用戶反饋分析、節點規劃建議、專線擴容建議等方面,合理規劃出網絡建設路線,大幅縮短規劃時間,節約時間成本。
阿里巴巴:ET大腦獲世界互聯網領先科技成果18強
自去年8月阿里巴巴推出ET大腦,一年多來已經被用來解決和探索社會經濟發展當中依靠人腦所無法解決的棘手問題。據阿里巴巴集團CEO張勇介紹:“整個ET大腦有非常多的人工智能技術,不僅僅是機器視覺、語音識別、自然語言處理等單個的AI技術,更重要的是這些技術有機整體的實現和全局的突破。”
在11月舉辦的第三屆世界互聯網大會上,15項世界互聯網領先科技成果同時,其中便包括ET大腦。獲獎原因包括AI、云計算、大數據能力與垂直領域知識深度結合,以及在應方面,已廣泛應用于城市治理、工業制造、社會安全等數十個垂直領域。
中國移動:移動網絡業界首個AI平臺“九天”
12月,中國移動面向業界首個AI平臺“九天”。
據了解,該平臺可以拆分出三個方面:第一方面,產品的應用服務,包括運營、連接、服務三大領域,旗下分別包括智能營銷、智能決策、智能網絡、智能物聯以及智能客服等領域;第二方面,AI核心能力層可以將其處理的數據自主分為語音語言類型、圖像識別類型等;第三方面,“九天”的深度學習平臺是中國移動首款基于GPU的深度學習訓練平臺。
中科視拓:推出深度學習服務平臺SeeTaaS將深度學習開發過程簡化
10月,中科視拓推出一站式企業級深度學習平臺SeeTaaS,主要用于研發人臉識別、手勢識別、無人機視覺、視頻結構化分析等在內的企業級解決方案。據了解,該平臺可以提供深度學習相關的數據、算法、算力等服務,同時將深度學習的開發過程簡化為:上傳數據、選擇算法、自動調參、輸出訓練模型、模型批量測試、模型跨平臺部署等。
應用方面,中科視拓已與中國平安、中國航天科技、中國電信、華為、百度、三星、高通等企業達成合作。
EasyStack:推出全球首個同時支持GPU和FPGA開源云平臺
在2017中國開源產業峰會暨第21屆中國國際軟件博覽會分論壇上,EasyStack正式推出全球首個同時支持GPU和FPGA異構計算的人工智能開源云平臺ESCould AI。
關鍵詞:辛烷值;快速檢測方法;氣相色譜法;紅外光譜法;拉曼光譜法
中圖分類號:TB 文獻標識碼:A doi:10.19311/ki.1672-3198.2016.07.092
辛烷值是表征車用汽油抗爆性的重要指標,1926年美國科學家埃得將辛烷值引入汽油性能指標。汽油在燃燒過程中,抵抗爆震的能力叫作抗爆性,辛烷值就是表示汽油抗爆性的指標。辛烷值越高,其抗爆性能越好,汽油在汽缸中燃燒越充分,燃燒效率越高,尾氣排放中的一氧化碳、碳氫化合物含量越低,對環境的危害相應越小。
馬達法辛烷值和研究法辛烷值是汽油的辛烷值的傳統測量方法,方法用樣品量大,時間長、費用高,不適于生產控制的在線測試。本文對近幾年出現的幾種辛烷值測量的快速分析方法進行總結和綜述,介紹相關方法的應用進展。
1 拉曼光譜法
拉曼分析方法作為一種光譜檢測技術,不僅樣品預處理簡單、分析速度快、效率高、重現性好,另外還具有受水分干擾小、樣品無損、可進行微量樣品探測、檢測頻帶寬、可快速跟蹤反應過程等特點;即便是非極性基團如c=c,c=c等紅外吸收較弱的官能團,在拉曼光譜中也可以得到很強的吸收譜帶。因此,特別適合用于對含碳、氫基團較高的汽油樣品的辛烷值檢測。
康健爽等2010年提出了一種使用拉曼分析測定汽油辛烷值的方法,并設計了辛烷值拉曼光譜在線檢測系統。這種辛烷值在線監控系統能夠實時監控乙醇汽油中的組分變化,并給出對應的拉曼分析曲線;根據光柵型和傅立葉變換型光譜儀各自特點,選用光柵型拉曼光譜儀應用于辛烷值在線檢測。以Lambert-Beer定律為基礎,采用化學計量學方法,將檢測數據和采用標準方法測得的屬性數據之間關聯,建立分析模型,在具體算法實現過程中,分別采用PCA和PLS兩種方法建立關聯分析模型,并用于乙醇汽油辛烷值的快速預測,指導實際調和過程。實踐證明,相對傳統的檢測手段,該系統具有測試速度快、分析時間短、檢測費用低、經濟效益高等特點。
2 氣相色譜法
李長秀等2003年建立了一種新方法,該方法將氣相色譜結果關聯建模用以計算汽油樣品的辛烷值。對汽油的組成采用高分辨毛細管柱進行測定,根據汽油單體烴組分的含量和純組分辛烷值乘積的大小,將單體烴組分分為兩組,每一組為一個變量,建立實測辛烷值與兩個變量間的回歸模型。實際分析時,根據樣品的類型帶入相應的模型進行關聯計算即可得到樣品的辛烷值。該方法與采用標準方法測定催化裂化汽油辛烷值的結果相比,測定結果的偏差約0.5個單位。該方法因為操作相對簡單,樣品量耗費少,且建模過程快速、簡便,適于穩定工藝過程中的汽油辛烷值的在線監測。
于愛東等采用毛細管氣相色譜法對汽油單體烴類進行分離,用PONA汽油組成軟件對汽油單體烴進行定性、定量、Pona組成計算.將汽油單體烴分為37組,建立實測辛烷值與37個變量之間的回歸模型,計算汽油辛烷值。該模型計算辛烷值與實測辛烷值的極差為0.26個單位,適用辛烷值在88~92之間的油品。辛烷值的計算公式能夠較好地反映汽油單體烴與辛烷值之間的關系。方法操作簡單,樣品用量少,結果準確,適合于煉廠蒸餾、催化過程中汽油辛烷值的實時監測。
3 近紅外光譜法
近紅外光譜分析方法是一種間接分析方法,它先利用一組汽油標準樣品,在汽油的近紅外光譜數據間和汽油辛烷值建立數據關聯分析模型,再用該模型預測未知汽油樣品的辛烷值。測量精度除受儀器精度影響外,還受所建分析模型精度影響。
韓言正等介紹了一種自主開發研制的汽油辛烷值近紅外光譜在線分析儀。該分析儀包括近紅外光譜在線測量、光譜預處理和實時建模等部分。對于原始的近紅外光譜數據,采用多項式卷積算法進行光譜平滑、基線校正和標準歸一化;通過模式分類與偏最小二乘進行實時建模。該分析儀已成功應用于某煉油廠生產過程的辛烷值在線監測。
汽油辛烷值預測體系具有非線性的特點,史月華等據此提出主成分回歸殘差神經網絡校正算法(PCRRANN)用于近紅外測定汽油辛烷值的預測模型校正。該方法結合了主成分回歸算法(PC),與PLS(PartialLeastSquare),PCR,PLS(NPLS,Non lin-earPLS)等經典校正算法相比,預測能力有明顯的提高。
獨立分量分析(ICA)是統計信號處理近年來的一項發展。顧名思義,這是一種分解技術,其特點是把信號分解成若干相互獨立的成分。主分量分析(PCA)和奇異值分解(SVD)是人們較熟悉的分解信號的線性代數方法,ICA與它們的主要不同之處表現在:
(1)后者只要求分解出來的各分量互相正交(不相關),但并不要求它們互相獨立。用統計信號處理的語言來表達,即:后者只考慮二階統計特性,而前者則要更全面考慮其概率密度函數的統計獨立性。
(2)后者按能量大小排序來考慮被分解分量的重要性。這樣的分解雖然在數據壓縮和去除弱噪聲方面有其優點,但分解結果往往缺乏明確的生理意義。前者雖然分解出的分量其能量大小存在不確定性,但當測量值確實是由若干獨立信源混合而成時,分解結果往往具有更好的生理解釋。由于測得的生理信號往往是若干獨立成分的加權迭加(例如,誘發腦電總是被自發腦電所淹沒,而且常伴隨有心電、眼動、頭皮肌電等干擾),此ICA是一項值得注意的分解方法。
此外,神經生理研究認為,人類對認知、感知信息的前期處理有“去冗余”的特點。ICA在這方面也表現出類似特性,因為互相獨立的分量之間互信息是最少的。ICA是伴隨著盲信號處理,特別是盲信源分離發展起來。其研究熱潮方興未艾,也正在引起生物醫學工程界的注意,IEEETransBME正在組織出版以它為重點的專輯。就國際范圍看,以下幾個研究單位目前工作比較領先:(1)美國加州大學生物系計算神經生物學實驗室,(2)日本Riken腦科學研究所腦信息研究室,(3)芬蘭赫爾辛基工業大學計算機及信息科學實驗室,目前發表有關文獻較多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是對ICA的原理、算法及應用作一簡述,以引起國內同行對它的關注。將側重于概念說明,而不追求數學上的嚴謹性。
2原理
2.1問題的提法,s-(n)是一組互相獨立的信源,A是混合矩陣,x-(n)是觀察記錄,即x-(n)=As-(n)。問題的任務是:在A陣未知且對s-(n)除獨立性外無其它先驗知識的情況下,求解混矩陣B,使得處理結果y-(n)=Bx-(n)中各分量盡可能互相獨立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下條件的限制:(1)比例不定性:s-(n)中某一分量大K倍時,只要使相應的A陣系數減小K倍,x-(n)便保持不變。
因此,求解時往往把s-(n)假設成具有單位協方差陣,即s-中各分量均值為零,方差為1,且互相獨立。(2)排序不定性:y-與s-中各分量排序可以不同。因為只要對調B陣中任意兩行,y-中相應元素的位置也便對調。(3)s-(n)中至多只能有一個高斯型信源:這是因為高斯信源的線性組合仍是高斯型的,因此混合后便無法再區別。(4)信源數目N只能小于或等于觀測通道數M。N>M情況目前尚未解決。以下討論設M=N。因此,y-(n)只是在上述條件下對s-(n)的逼近。換名話說,任務的實質是優化問題,它包括兩個主要方面:優化判據(目標函數)和尋優算法。
2.2目標函數
這一領域的研究者已經從不同角度提出了多種判據。其中以互信息極小判據(MinimizationofMutualInformation,簡記MMI)和信息或熵極大判據(Informax或MaximizationofEntropy,簡記ME)應用最廣。由于最基本的獨立性判據應由概率密度函數(probabilitydensityfunction,簡記pdf)引出,而工作時pdf一般是未知的,估計它又比較困難,因此通常采用一些途徑繞過這一困難。
常用的方法有兩類:①把pdf作級數展開,從而把對pdf的估計轉化為對高階統計量的估計;②在圖1的輸出端引入非線性環節來建立優化判據。后一作法實際上隱含地引入了高階統計量。(1)互信息極小判據:統計獨立性的最基本判據如下:令p(y-)是y-的聯合概率密度函數,pi(yi)是y-中各分量的邊際概率密度函數。當且僅當y-中各分量獨立時有:p(y-)=∏Ni=1pi(yi)因此用p(y-)與∏i=1pi(yi)間的Kullback-Leibler散度作為獨立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)顯然,I(y-)0,當且僅當各分量獨立時I(y-)=0。因此,互信息極小判據的直接形式是:在y-=Bx-條(文秘站:)件下尋找B,使(1)式的I(y-)極小為了使判據實際可用,需要把I(y-)中有關的pdf展成級數。
由于在協方差相等的概率分布中高斯分布的熵值最大,因此展開時常用同協方差的高斯分布作為參考標準。例如,采用Gram-Charlier展開時有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是與P(yi)具有同樣方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四階累計量(cumulant),hn(yi)是n階Hermit多項式。此外還有許多其他展開辦法,如Edgeworth展開,利用負熵(Negentropy)等。不論采用何種展開方式,經推導后總可把式(1)近似改成k3、k4的函數:I(y)=F(k3y-,k4y-,B)(1)’F(·)的具體形式多種多樣,視推導時的假設而異。
這樣就得到互信息判據的實用近似形式:在y-=Bx-條件下尋找B,使式(1)的I(y-)極小(2)Infomax判據:這一判據的特點是在輸出端逐分量地引入一個合適的非線性環節把yi轉成ri(如圖2)。可以證明,如果gi(·)取為對應信源的累積分布函數cdf(它也就是概率密度函數的積分),則使r-=(r1…rN)T的熵極大等效于使I(y-)極小,因此也可達使y-中各分量獨立的要求。從而得到Infomax判據:在選定適當gi(·)后,尋找B使熵H(r-)極大需要指出的是,雖然理論上gi(·)應取為各信源的cdf,但實踐證明此要求并不很嚴格,有些取值在0~1之間的單調升函數也可以被采用,如sigmoid函數、tanh(·)等。估計H(r-)固然也涉及pdf,但由于其作用已通過gi(·)引入,所以可以不必再作級數展開而直接用自適應選代尋優步驟求解。文獻中還提出了一些其他判據,如極大似然、非線性PCA等,但它們本質上都可統一在信息論的框架下,所以不再一一列舉[1]。
3處理算法優化算法
可大致分為兩類,即批處理與自適應處理。
3.1批處理批處理比較成熟的方法有兩類。較早提出的是成對旋轉法[2],其特點是把優化過程分解成兩步。先把x-(n)經W陣加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相關且方差為1,然后再尋找合適的正交歸一陣U達到使y-各分量獨立的目的。前一步類似于PCA,后一步則可利用Givens旋轉,根據目標函數,將z-中各分量兩兩成對反復旋轉直到收斂。這種方法計算量較大。1999年,Gadoso提出幾種方法對它作了進一步改進[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再敘述。近年來,提出的另一類方法是所謂“固定點”法(FixedPointMethod)[4,5
],其思路雖來源于自適應處理,但最終算法屬于批處理。
簡單地說,通過隨機梯度法調節B陣來達到優化目標時,有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是選代序號,εk是瞬時目標函數。當到達穩態時必有[E是總集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)與B(k)有關,就可由(2)式解出B的穩態值。不過由于(2)式總是非線性方程,因此求解時仍需要采用數值方法(如牛頓法、共軛梯度法等)迭代求解。實踐證明,不論是收斂速度還是計算量,此法均優于前一種方法,而且它還可以根據需要逐次提取最關心的yi,因此是一類值得注意的方法。
3.2結合神經網絡的自適應處理結合神經網絡的自適應處理算法的框圖。1994年Cichocki提出的調節算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N維矢量,其各元素都是單調升的非線性函數:Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得結果雖令人鼓舞,但是方法是經驗性的。其后學者們從理論上沿著這一方向作了更深入的討論,并發展出多種算法。概括地說,主要發展有以下幾點:
(1)引入自然梯度(或相對梯度)。按照最陡下降的隨機梯度法推導出的系數調節公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)視具體算法而異。Infomax法中Ψ(·)由所選用的g(·)決定;MMI法中則與yk的三、四階矩有關。B-T(k)是矩陣求逆再轉置,它的計算量很大。Amari[7]在1998年提出將最陡下降梯度改為“自然梯度”,兩者間關系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩陣求逆,因此計算量明顯降低且收斂加快。目前,這一作法已被普遍接受。
(2)引入自然梯度后,采用不同的優化判據得出的調節公式雖各有千秋,但大致都可表示為如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具體形式各不相同。串行矩陣更新的算法還具有一些理論上值得注意的性質,如均勻特性(uniformproperty)和等變性(equivariant)等[8,9]。
(3)四階累計量k4>0的超高斯信號和k4<0的欠高斯信號,其處理過程應當予以區別。采用同一算法效果往往不好。目前的辦法多是在調節公式中引入一個開關。根據估計得k4的符號來切換不同算法,如擴展的Infomax法就是一例[10]。此法的系數調節公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是對角陣,其對角元素之值為+1或-1,視該信號分量k4>0或<0而定。為了實時應用,估計K4也可采用遞歸算法。總之,自適應算法是目前采用較廣的方法。
4應用舉例
4.1仿真計算為檢驗經ICA算法分解信源的能力,左圖是一組源信號,它們對系統來說是未知的。這一組信號經混合后的觀察信號作為(中圖所示)ICA算法的輸入,分解后的結果如右圖所示。可以看到,除了波形的次序、極性和波幅發生變化之外,源信號的波形被很好地分解出來。一般情況下,臨床腦電信號中既有超高斯成分(如誘發電位),也有亞高斯成分(如肌電和工頻干擾)。為了檢驗擴展Infomax算法處理這類情況的能力,我們又用此法進行了如圖6所示仿真實驗。左圖第一行是一段自發腦電信號,第二行是仿真的視覺誘發電位,第三行是肌電干擾。混合后的信號(圖中第二列所示)經ICA分解得到如右圖所示的結果。這一結果表明擴展ICA算法在同時存在超高斯和亞高斯信號的情況下,仍然能夠很好地實現盲分解。但應指出:這一仿真結果并不說明通過ICA分解就能直接得到視覺誘發電位,因為還沒有涉及頭皮上的多導數據。
4.2實驗VEP分析(1)多導腦電觀察中VEP的增強:需要強調,把多導腦電作ICA分解后直接取出其中與VEP有關的成分,得到的并不是頭皮電極處的VEP分量,因為它們只是分解出來的信源,而這些信源的位置并不在頭皮上,為了得到電極處測量值中的VEP成分,需按下述步驟處理:用訓練得的W陣直接對頭皮上取得的多導腦電數據進行ICA分解,得到各獨立分量組成的矩恥y=Bx(見圖7a);再根據各分量的波形特征及產生時段,選擇與VEP有關的一部分分量(例如在前300ms中具有較大幅度的分量),并將其余分量置0,得到新的獨立分量矩陣y’;再反變換回頭皮各電極處得x’=B-1-y’。這樣才能得到去除噪聲和干擾后各電極處的VEP。
采用這樣的方法可顯著地減少提取VEP所需要的累加次數。左圖是經3次累加所得VEP,中圖是經50次累加所得結果,右圖則是用左圖經圖7中ICA處理后提取的VEP。比較中、右兩圖,兩者波形趨勢基本相同,但后者比前者其主要峰、谷顯然更清楚,而累加次數由50減到3。(2)ICA分量的空間模式:把某一個ICA分量的瞬時值經B-1逆推回頭皮各電極處得x-’后,就可以按斷層圖的插補方法得到該時該分量在頭皮上的空間分布模式。這個空間分布模式也可以用更簡單辦法得到:只要把逆矩陣B-1中相應于某ICA分量的列中各元素的值賦與頭皮各電極處,再作斷層圖插值,就可以表現該ICA分量在任意時刻的空間分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。
可見ICA分量y’j(t)在頭皮各電極處的對應值等于用逆陣B-1第j列各元素來對y’j(t)加權。因此,列矢量b’j=[b’1,…,b’Nj]可以用來統一地表現任意時刻y’j的空間模式。
5總結與展望
本文粗略介紹了ICA的原理、算法和應用,可以看到ICA確是一個值得注意的研究方向,但其理論體系尚未完整,實際采用的處理方法多少還帶有經驗性。例如為什么對非線性特性gi的要求不甚嚴格就沒有明確解釋;又如算法的穩定性、收斂性在實踐中是經常遇到的問題。從應用方面看也還有許多待開發的領域,例如如何應用于生理信號的模式識別與系統建模等。從生物醫學信號分析的角度看,還有一些亟待深入的問題。例如:
(1)在以上分析中混合陣A被假設為恒定。這對靜態的圖像分析或固定信源是合理的;但在生理實際中,等效信源一般在空間并不固定,因而混合陣A應視為時變的,而且傳導過程中還會引入容積導體的卷積及遲作用。這可能是實際生理信號分解結果不夠理想的原因之一。
(2)一般公認,生理信號的非平穩性較強,而以上分析并沒有考慮信號的非平穩性。