手機(jī)功能越來越先進(jìn),“手上人工智能”正在成為一種趨勢(shì),一些應(yīng)用不再使用云服務(wù),而是在手機(jī)本身上完成人工智能(AI)計(jì)算,而一些業(yè)界人士也認(rèn)為,大部分移動(dòng)應(yīng)用未來都將成為AI應(yīng)用。外媒fastcompany分析了這一趨勢(shì)。
蘋果iOS10正式版將于9月13日開始推送,iPhone機(jī)主升級(jí)系統(tǒng)之后,就可以找到幾乎在任何時(shí)候和任何地方,任何人或任何東西的照片。
新的iOS10的神經(jīng)網(wǎng)絡(luò)人工智能可以在十分之一秒的時(shí)間里進(jìn)行110億次計(jì)算,不僅能辨別出每張照片里的人是誰,甚至能辨識(shí)出他們的情緒如何。
“手上人工智能”正在成為一種趨勢(shì),iOS10的照片應(yīng)用只是最新的一個(gè)例證。
今年1月份發(fā)布的應(yīng)用Aipoly可以識(shí)別物體,并大聲說出這些東西的名字,為盲人用戶帶來了福音。
而且,如果你使用谷歌(微博)翻譯,只要把攝像頭對(duì)準(zhǔn)一些文字,它就能把這些文字翻譯成另一種語言。就算是在沒有蜂窩信號(hào)的地方,這些功能也可以使用。
在手機(jī)上進(jìn)行AI處理的好處
對(duì)于“它的工作原理是怎樣”這樣的問題,“云計(jì)算”正在成為某種標(biāo)準(zhǔn)答案,但是,智能手機(jī)已經(jīng)奪回了一定的獨(dú)立性:本來需要與服務(wù)器中心連接才能執(zhí)行的一些任務(wù),現(xiàn)在直接在手機(jī)上就能完成。
這可以為用戶提供更加自然流暢的AI經(jīng)驗(yàn),因?yàn)椴恍枰ヂ?lián)網(wǎng)連接到數(shù)據(jù)中心,就不會(huì)有令人心煩的滯后現(xiàn)象。
“如果我說,'嘿,Siri的,這是什么?”它需要兩秒鐘的時(shí)間把照片發(fā)送到云服務(wù)并獲得回應(yīng),”Aipoly的聯(lián)合創(chuàng)始人阿爾貝托·里佐利(AlbertoRizzoli)說。
“感覺就像是在和一個(gè)剛剛從夢(mèng)中醒來的人交談。”Aipoly不是第一次試圖幫助盲人看東西的應(yīng)用;但它是這類服務(wù)中第一個(gè)不依賴云服務(wù),直接在手機(jī)上運(yùn)行AI,立即識(shí)別東西的應(yīng)用。”
有了這樣的即時(shí)AI,增強(qiáng)現(xiàn)實(shí)(AR)就可以遠(yuǎn)遠(yuǎn)超越PokémonGo的層次,準(zhǔn)確地映射周圍的環(huán)境,把3D物體、人物和動(dòng)畫插入到手機(jī)或平板電腦屏幕上的視頻源中。
同樣,有了移動(dòng)AI,虛擬現(xiàn)實(shí)(VR)看上去也會(huì)更加逼真。
手機(jī)芯片制造商高通的產(chǎn)品管理總監(jiān)加里·布洛特曼(GaryBrotman)是機(jī)器學(xué)習(xí)平臺(tái)的負(fù)責(zé)人,他說:“要正確實(shí)現(xiàn)VR,所有東西都必須是完全實(shí)時(shí)的。你必須要能夠呈現(xiàn)視頻和音頻,擁有支持眼動(dòng)跟蹤、頭部跟蹤、手勢(shì)跟蹤以及空間音頻跟蹤(以便把房間的聲學(xué)效果映射到虛擬體驗(yàn)中)的人工智能。”
AI也將為用戶提供一些非常方便的功能。里佐利說,以后的虛擬助理可能會(huì)使用手機(jī)攝像頭來識(shí)別你所在的位置,比如具體是在哪條街道,哪個(gè)餐館,并調(diào)出相關(guān)的應(yīng)用。
而且這些方便的功能可能不會(huì)再有延遲。如果未來的AI并不需要云計(jì)算,那么云計(jì)算就不需要掌握你的個(gè)人信息。
“在手機(jī)上進(jìn)行分析和人工智能處理有很多好處,比如保護(hù)隱私,消除延遲等等。”布洛特曼說。
是什么把AI的力量賦予了手機(jī)?是電子游戲。
“人們希望在手機(jī)或者平板電腦上玩更好的游戲,”里佐利說。“因此,蘋果變得特別擅長(zhǎng)于提供更好的性能,高通和其他芯片廠商也是如此。”這推動(dòng)了移動(dòng)CPU和GPU的發(fā)展。
雖然大部分的CPU都是順序執(zhí)行任務(wù)的,GPU卻可以并行執(zhí)行簡(jiǎn)單但數(shù)量龐大的任務(wù),這是快速渲染3D圖形所必需的。另外,AI也需要硬件可以連著執(zhí)行多個(gè)簡(jiǎn)單任務(wù)。
就拿“卷積神經(jīng)網(wǎng)絡(luò)”(當(dāng)前主流圖像識(shí)別技術(shù))舉例來說吧,它仿照大腦視覺皮層的工作原理,把視野劃分成一個(gè)個(gè)重疊的小塊,然后以一層連一層地過濾簡(jiǎn)單的細(xì)節(jié),比如這些小塊的邊緣。
這些信息被傳輸?shù)搅硪粚由窠?jīng)元(對(duì)人類來說生物性的,對(duì)軟件來說是虛擬的),它可能會(huì)把邊緣合并成一條條線;另一層神經(jīng)元可能會(huì)識(shí)別出原始形狀。
每一層(可能有幾十層)都會(huì)進(jìn)一步細(xì)化對(duì)圖像的感知。“你在看一張照片的時(shí)候,你會(huì)在同一時(shí)間識(shí)別出它的各種元素,”里佐利說。“你識(shí)別出邊緣,識(shí)別出形狀。這一切都可以并行進(jìn)行。”
對(duì)硬件的需求
早在幾年前,智能手機(jī)的芯片已經(jīng)準(zhǔn)備好了迎接這種挑戰(zhàn)。在升級(jí)iOS10之后,即使是2013推出的iPhone5s也足以支持新的人臉識(shí)別、場(chǎng)景識(shí)別,以及對(duì)象識(shí)別。
Aipoly正在制作可以在iPhone5上,以及可以在上市已經(jīng)好幾年的Android手機(jī)上運(yùn)行的版本。但是程序員最近才剛剛開始利用這種能力。今年6月份推出的照片特效應(yīng)用Prisma就是其中的佼佼者。
這個(gè)應(yīng)用是25歲的阿列克謝·莫伊申科夫(AlekseyMoiseenkov)開發(fā)的。
Prisma用戶可以把智能手機(jī)上的照片用30多種藝術(shù)風(fēng)格進(jìn)行加工,比如“吶喊”、“蒙德里安”風(fēng)格等等。加工后的效果呈現(xiàn)馬上就可以呈現(xiàn)出來,用戶完全不會(huì)注意到背后的計(jì)算有多么復(fù)雜。
Instagram上的那種濾鏡提供的是簡(jiǎn)單的調(diào)整,比如顏色、對(duì)比度、亮度或白平衡等等基本參數(shù)的調(diào)整。但Prisma需要分析圖像,識(shí)別出相似的形狀、線條、色彩和陰影等等元素,然后以蒙克(EdvardMunch)或蒙德里安(PietMondrian)的風(fēng)格進(jìn)行重新繪制。即便是平淡無奇的照片,經(jīng)Prisma加工之后也可以呈現(xiàn)出驚艷的效果。
Prisma最初使用了云服務(wù)來完成這些工作,但莫伊申科夫說,這么做損害了該應(yīng)用的質(zhì)量。
“我們有很多的用戶在亞洲,”他說,“我們需要給他們提供同樣的體驗(yàn),無論他們用什么方式上網(wǎng),無論服務(wù)器在哪里”。
8月份推出的iPhone版Prisma完全在手機(jī)上運(yùn)行,莫伊申科夫目前正在開發(fā)完全在手機(jī)上運(yùn)行的Android版Prisma。
而且Prisma即將推出一個(gè)既可以對(duì)照片又可以對(duì)視頻進(jìn)行藝術(shù)化處理的版本。發(fā)布時(shí)間可能就在本月內(nèi)。
莫伊申科夫說,“把視頻上載到服務(wù)器進(jìn)行各種處理,比處理照片更加復(fù)雜得多,”所以,直接在手機(jī)上實(shí)現(xiàn)藝術(shù)化處理是至關(guān)重要的。
廠商提供的支持
為了讓AI軟件能在手機(jī)上運(yùn)行,莫伊申科夫和他的團(tuán)隊(duì)不得不從零開始編碼,但以后可能不會(huì)這么辛苦了。
今年5月,高通為驍龍820芯片推出了一個(gè)軟件開發(fā)工具包,名為“神經(jīng)處理引擎”(NeuralProcessingEngine)。
2016年的高端Android手機(jī),如三星GalaxyS7和Note7,MotoZ和ZForce、OnePlus3、HTC10和LGG5,都采用了驍龍820芯片。
這個(gè)軟件可以在CPU,GPU和該芯片的其它部件之間切換,以支持場(chǎng)景檢測(cè)、文字識(shí)別、面部識(shí)別和自然語言處理(理解語音對(duì)話,而不是僅僅是理解命令式的語音指令)等任務(wù)。
專業(yè)AI芯片也正在研制之中。一家名為Movidius的公司推出了VPU(visionprocessingunits,意思是視覺處理單元),對(duì)計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化(就在本周,芯片巨頭英特爾達(dá)成了收購(gòu)Movidius的協(xié)議)。
DJI的Phantom4無人機(jī)就搭載了該公司最新的Myriad2芯片,用來幫助無人機(jī)發(fā)現(xiàn)和避免障礙物,在空中懸停,并跟蹤自行車或滑雪者這一類的移動(dòng)物體。
Myriad2的功耗大約只有1瓦,足以在手機(jī)上運(yùn)行。對(duì)于Movidius未來的產(chǎn)品,該公司做過一些模糊的聲明。
今年6月,它公布與聯(lián)想公司“達(dá)成戰(zhàn)略合作伙伴關(guān)系,為各種以VR為中心的聯(lián)想產(chǎn)品提供先進(jìn)的視覺處理技術(shù)。”這些產(chǎn)品可能是VR頭盔,或者是手機(jī),或者兩者都包括。
今年1月,Movidius和谷歌宣布合作“以加速移動(dòng)設(shè)備上的深度學(xué)習(xí)”,但之后Movidius就不再透露和谷歌交易的更多信息。
蘋果的AI規(guī)劃
蘋果在今年6月推出iOS10預(yù)覽版之前,對(duì)自己的AI計(jì)劃一直都含糊其辭。
照片應(yīng)用可能占了蘋果AI計(jì)劃的大頭。它使用了神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)過程,可以識(shí)別照片中的場(chǎng)景、對(duì)象和人臉,把它們進(jìn)行歸類,讓用戶可以搜索它們。
其Memories功能可以把你出現(xiàn)過的照片和視頻組合起來,或某個(gè)地方的照片和視頻組合起來,或者是它認(rèn)為涉及一個(gè)重要事件(比如一場(chǎng)旅行)的照片和視頻組合起來。蘋果說,直接在手機(jī)上完成全部工作可以保證個(gè)人信息的私密性。
蘋果公司的預(yù)測(cè)打字功能也運(yùn)用了神經(jīng)網(wǎng)絡(luò),這個(gè)功能可以幫助你完成句子,其實(shí)早在iOS10之前,蘋果就已經(jīng)在使用AI。
2014年7月,蘋果把Siri轉(zhuǎn)移到了一個(gè)在手機(jī)上運(yùn)行的神經(jīng)網(wǎng)絡(luò)系統(tǒng)上,以改善Siri的語音識(shí)別能力。
Siri現(xiàn)在是應(yīng)用開發(fā)商利用iPhoneAI系統(tǒng)的一條路徑。蘋果尚未像高通為驍龍芯片做的那樣,為其A系列芯片發(fā)布AI編程工具,但蘋果有一個(gè)叫SiriKit功能,開發(fā)人員可以把自己的應(yīng)用連接到這個(gè)功能上,這樣一來,用戶就可以通過與Siri聊天的方式,與開發(fā)人員的應(yīng)用進(jìn)行交互了。
而且蘋果在幫助第三方開發(fā)者利用AI上付出的努力,未必落后高通多少。
最近蘋果花費(fèi)了據(jù)說2億美元,收購(gòu)了一家為程序員提供AI工具的公司,名叫Turi。而且開發(fā)者還將獲得更加強(qiáng)勁的動(dòng)力:在iPhone7和7Plus上,新的A10Fusion芯片擁有一顆CPU,運(yùn)行速度比上一代iPhone的CPU快40%,另外圖形處理速度也加快了50%。
隨著AI在科技領(lǐng)域開疆拓土,它似乎注定會(huì)在手機(jī)上獲得增長(zhǎng)。用戶越來越期望設(shè)備能夠理解他們想要什么,他們的意思是什么。
“我可以說,大部分移動(dòng)應(yīng)用都將成為AI應(yīng)用,”納爾多·曼納洛托(NardoManaloto)說。他是AI工程師兼顧問,側(cè)重于醫(yī)療保健應(yīng)用,比如虛擬醫(yī)療助理等等。
阿爾貝托·里佐利預(yù)計(jì),明年1月的CES大會(huì)上將涌現(xiàn)大量新的應(yīng)用。
“有了更多的深度學(xué)習(xí)軟件工具之后,應(yīng)用開發(fā)人員在這方面的意識(shí)就會(huì)增強(qiáng),他們就會(huì)跟隨這種發(fā)展,”他說。
“目前計(jì)算機(jī)科學(xué)領(lǐng)域有很多人仍然覺得這是一種黑科技……當(dāng)然事實(shí)上并不是這樣。”