2017年,在移動應(yīng)用的深度學(xué)習(xí)方面取得了一些重大進展。2017年4月,谷歌發(fā)布了輕量級神經(jīng)網(wǎng)絡(luò)MobileNets。2017年6月,蘋果公司發(fā)布了Core ML,支持在移動設(shè)備上運行機器學(xué)習(xí)模型。除此之外,最近發(fā)布的一些高端設(shè)備配備了GPU,它們運行機器學(xué)習(xí)甚至比MacBook Pro還要快。

深度學(xué)習(xí)已經(jīng)無處不在。在這篇文章里,我將會介紹深度學(xué)習(xí)在現(xiàn)實世界中的應(yīng)用情況,并見識一下它們的速度到底有多快。
MobileNets應(yīng)用
我們最近開發(fā)了一種新的深度神經(jīng)網(wǎng)絡(luò),叫作MobileUNet,用于解決語義切分問題。它的設(shè)計極其簡單,它在U-Net中使用了MobileNets。這里只列出其中關(guān)鍵的點,更多細節(jié)可以參考它的GitHub倉庫。
-
編碼器使用了MobileNets,缺少用于分類的全連接層。
-
解碼器使用卷積轉(zhuǎn)置進行升采樣(upsample)。
在開發(fā)該項目時,我們主要關(guān)心它的推理速度。我們知道深度神經(jīng)網(wǎng)絡(luò)在GPU上跑得更快一些,但如果運行在移動設(shè)備上會怎樣呢?
這也就是為什么我們使用了MobileNets。
-
它使用深度卷積塊(depthwise conv block)來加快推理速度。
-
它提供了一些參數(shù)用于在準確性和速度之間做出權(quán)衡。
我們可以得到較為理想的結(jié)果,如下圖所示。
速度與準確性
在介紹MobileUNet的性能之前,我想先澄清幾個一般性的概念。
是否所有的卷積(如Conv2D、DepthwiseConv2D和Conv2DTranspose)在不同的處理器上都有相同的速度表現(xiàn)?
答案是否定的。在不同的處理器上,有些操作會很快,有些會很慢。CPU和GPU之間的區(qū)別是很容易區(qū)分出來的,即使是不同的GPU之間也存在優(yōu)化差異。
下圖展示了普通的卷積塊和深度卷積塊之間的差別。
深度卷積塊和普通卷積塊在CPU上的表現(xiàn)差別很大,但在GPU上的差別卻小了很多。
因此,如果你想要發(fā)布基于移動設(shè)備的深度學(xué)習(xí)應(yīng)用,最好先在主流的設(shè)備上做一下測試。接下來,我要分享一下MobileUNet的各種指標。
我們主要使用了以下幾個設(shè)備。
MobileNets提供了一個叫作alpha的參數(shù)用于控制速度和準確性之間的比率,所以我們也在MobileUNet里使用了這個參數(shù)。我們選擇了4個alpha值(1、0.75、0.5和0.25)和4種尺寸的圖像(224、192、160、128)。
下圖是速度對比。
讓人感到驚訝的是,速度最快的并不是iPhone 8 Plus,而是iPhone 7 Plus。iPhone 7 Plus真的很快,在實時應(yīng)用方面完全沒有問題。iPhone 6 Plus和驍龍820就沒那么快了,特別是當alpha值很大的時候就更慢了。
下圖是準確性對比。
在alpha達到0.25時,準確性開始急速下降。準確性隨著alpha的值和圖像尺寸呈線性下降。所以,我們不使用alpha 0.25這個值。
下圖展示了在驍龍820上運行的速度和準確性。
如果速度對于我們來說很重要,那么就可以考慮左上角那個,尺寸為128,準確性為0.875 IoU,alpha值為0.5。如果更看重準確性,那么可以選擇尺寸為192、alpha值為0.5的那個。
當然,我們也可以為不同的設(shè)備使用不同的模型,但這樣會增加復(fù)雜性。
現(xiàn)在讓我們來看看為什么iPhone 7 Plus會比iPhone 8 Plus更快。
之前已經(jīng)說過,速度取決于每個處理器。iPhone 7 Plus的GPU比iPhone 8 Plus的GPU更加契合我們的神經(jīng)網(wǎng)絡(luò),為此我做了一個實驗。
我們將MobileUNet的編碼器和解碼器分為不同的部分,并測試它們的性能。
很明顯,解碼器部分是iPhone 8 Plus的瓶頸所在。我們在解碼器中使用了Conv2DTranspose,iPhone 7 Plus的GPU針對Conv2DTranspose進行過優(yōu)化,而iPhone 8 Plus則沒有。
用于基準測試的腳本放在了Gist上。
-
Benchmark TensorFlow model in Android
-
Benchmark Core ML model in iOS
結(jié)論
在移動設(shè)備上使用深度學(xué)習(xí)已經(jīng)成為一種趨勢,在不久的將來,深度學(xué)習(xí)的應(yīng)用會越來越方便。
但不是所有的設(shè)備都配備了高端GPU,所以進行性能調(diào)優(yōu)是很有必要的。因為不同的處理器具有不同的特點,所以一定要使用真實的設(shè)備進行性能測試。
性能測試本身并不難,甚至不需要使用訓(xùn)練過的模型,我們完全可以使用未訓(xùn)練的模型找出性能的瓶頸。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.guhuozai8.cn/
本文標題:移動設(shè)備上的實時深度學(xué)習(xí)
本文網(wǎng)址:http://m.guhuozai8.cn/html/consultation/10839721361.html