語(yǔ)音識(shí)別下一步 勇攀“人文境界”高峰

語(yǔ)音識(shí)別中最明顯的缺陷之一是處理口音和背景噪聲.最直接的原因是,大多數(shù)訓(xùn)練數(shù)據(jù)是由具有高信噪比的美國(guó)口音的英語(yǔ)組成.
   根據(jù)相關(guān)研究,今年美國(guó)將有超過(guò)6000萬(wàn)人使用語(yǔ)音激活的虛擬助手,比如Siri或Alexa,至少每月一次.也許并不奇怪,這些類型的小玩意在千禧一代中最受歡迎--那些出生在1981年到2000年之間的人--在這個(gè)群體中,預(yù)計(jì)約有2990萬(wàn)每月至少使用一次.
 
  自從深度學(xué)習(xí)大熱,廣泛應(yīng)用于語(yǔ)音識(shí)別以來(lái),字幕中的單詞錯(cuò)誤率急劇下降.盡管如此,語(yǔ)音識(shí)別并沒(méi)有達(dá)到人文水平,它仍會(huì)出現(xiàn)一些故障.承認(rèn)這些然后采取措施來(lái)解決這些問(wèn)題對(duì)于語(yǔ)音識(shí)別的進(jìn)步至關(guān)重要.這是唯一的從可以識(shí)別一些人的ASR到識(shí)別任何時(shí)間任何人的ASR的方式.
 
  在近期的Switchboard語(yǔ)音識(shí)別基準(zhǔn)測(cè)試中,單詞的錯(cuò)誤率得到改進(jìn).Switchboard集其實(shí)是在2000年收集的,它是由兩個(gè)隨機(jī)的以英語(yǔ)為母語(yǔ)的人之間的40個(gè)電話對(duì)話組成.
 
  可以說(shuō)目前我們已經(jīng)在會(huì)話式語(yǔ)音識(shí)別上達(dá)到“人類”水平,但僅僅只是在Switchboard方面.這個(gè)結(jié)果就像是在一個(gè)陽(yáng)光燦爛的日子里的某城市中,只有一個(gè)人駕駛著自動(dòng)駕駛汽車進(jìn)行測(cè)試.最近在這方面取得的進(jìn)步令人驚訝,但是,關(guān)于達(dá)到“人類”水平的說(shuō)法還是太過(guò)寬泛,以下是一些仍需要改進(jìn)的幾個(gè)方面.
 
  口音和噪音
 
  語(yǔ)音識(shí)別中最明顯的缺陷之一是處理口音和背景噪聲.最直接的原因是,大多數(shù)訓(xùn)練數(shù)據(jù)是由具有高信噪比的美國(guó)口音的英語(yǔ)組成.
 
  但是,更多的訓(xùn)練數(shù)據(jù)可能并不能自行解決這個(gè)問(wèn)題.現(xiàn)實(shí)生活中,也有許多方言和口音.因此,用標(biāo)注數(shù)據(jù)去應(yīng)對(duì)所有情況是不可行的.構(gòu)建一個(gè)高質(zhì)量的語(yǔ)音識(shí)別器,轉(zhuǎn)錄了5000多小時(shí)的音頻難道只是為了以英語(yǔ)為母語(yǔ)的人?
 
  將轉(zhuǎn)錄器與百度的深度語(yǔ)音識(shí)別系統(tǒng)Deep Speech 2 比較后發(fā)現(xiàn)在轉(zhuǎn)錄非美國(guó)口音時(shí)情況更糟糕.可能是由于美國(guó)人在轉(zhuǎn)錄時(shí)的偏見(jiàn).
 
  在背景有噪音的情況下,移動(dòng)汽車的信噪比低至5DB并不罕見(jiàn).這種環(huán)境下,人們也能夠很好的聽(tīng)清彼此.另一方面,語(yǔ)音識(shí)別器在噪聲方面的降解速度更快.在上圖中,可以清楚看到人力和模型誤差率之間的差距,從低信噪比急劇上升到高信噪比.
 
  語(yǔ)義錯(cuò)誤
 
  在語(yǔ)音識(shí)別系統(tǒng)中,單詞錯(cuò)誤率通常不是實(shí)際的目標(biāo),語(yǔ)義錯(cuò)誤率才是我們關(guān)注的重點(diǎn).因?yàn)?語(yǔ)義正確與否關(guān)系到對(duì)他人話語(yǔ)的理解程度.
 
  一個(gè)語(yǔ)義錯(cuò)誤的例子是,如果有人說(shuō)“讓我們?cè)谛瞧诙?jiàn)面”,但是語(yǔ)音識(shí)別器識(shí)別為“我們今天就見(jiàn)面”.這是出現(xiàn)了單詞錯(cuò)誤卻沒(méi)有語(yǔ)義錯(cuò)誤,當(dāng)然,情況也可能反過(guò)來(lái).
 
  使用錯(cuò)誤率作為代理服務(wù)時(shí),必須謹(jǐn)慎.先舉一個(gè)最壞的例子來(lái)說(shuō)明原因.一個(gè)5%的回答可能相當(dāng)于每20個(gè)單詞就漏掉一個(gè).那么,如果一句話只有20 個(gè)單詞的話,那么這句話的錯(cuò)誤率可能就是100%.
 
  當(dāng)將模型與人類進(jìn)行比較時(shí),檢查錯(cuò)誤的本質(zhì)是非常重要的,而不僅僅是將答案視為一個(gè)確定的數(shù)字.就經(jīng)驗(yàn)來(lái)看,人類的轉(zhuǎn)錄要比語(yǔ)音識(shí)別器產(chǎn)生更少的語(yǔ)義錯(cuò)誤.
 
  微軟的研究人員最近比較了人類轉(zhuǎn)錄及其人類語(yǔ)言識(shí)別器所犯的錯(cuò)誤,發(fā)現(xiàn)的一個(gè)差異在于,該模型混淆了“uh”和“uh huh”.這兩個(gè)詞有完全不同的語(yǔ)義.模型和人力都犯了很多相同類型的錯(cuò)誤.
 
  單通道,多個(gè)揚(yáng)聲器
 
  由于每個(gè)揚(yáng)聲器都使用單獨(dú)的麥克風(fēng)進(jìn)行錄音,所以 Switchboard會(huì)話任務(wù)也更容易.同一音頻流中,多個(gè)揚(yáng)聲器沒(méi)有重疊.另一方面,人類可以很好的理解多個(gè)揚(yáng)聲器有時(shí)在同一時(shí)間進(jìn)行的通話的內(nèi)容.
 
  一個(gè)好的會(huì)話語(yǔ)音識(shí)別器必須能夠根據(jù)誰(shuí)在說(shuō)話(diarisation)來(lái)分割音頻.它也應(yīng)該能夠使用重疊的揚(yáng)聲器(音源分離)來(lái)理解音頻.這是可行的,不需要麥克風(fēng)每一個(gè)揚(yáng)聲器,以便會(huì)話語(yǔ)音可以在任意位置都能工作.
 
  域的變化
 
  口音和背景噪聲是語(yǔ)音識(shí)別器的兩個(gè)重要的因素,這里還有一些:混響聲音環(huán)境變化;來(lái)自硬件的artefacts;用于音頻和壓縮的artefacts;采樣率;說(shuō)話人的年齡.
 
  大多數(shù)人甚至不會(huì)注意到mp3和普通wav文件之間的區(qū)別.在聲明人力性能之前,語(yǔ)音識(shí)別器也需要對(duì)這些變化的來(lái)源進(jìn)行強(qiáng)大的支持.
 
  上下文
 
  你會(huì)發(fā)現(xiàn),像“開(kāi)關(guān)板”這樣的單詞的錯(cuò)誤率實(shí)際上會(huì)很高,如果你和一個(gè)朋友交談,他們誤解了每20個(gè)字中的1個(gè),那么你就會(huì)很難溝通.
 
  其中的一個(gè)原因是評(píng)估是在上下文中完成的.在現(xiàn)實(shí)生活中,我們會(huì)使用許多其他線索、結(jié)合語(yǔ)境來(lái)幫助我們了解某人在說(shuō)什么.但語(yǔ)音識(shí)別器不能識(shí)別這些:
 
  對(duì)話的歷史和討論的話題;關(guān)于我們正在說(shuō)話的人的視覺(jué)暗示包括表情和唇部運(yùn)動(dòng);說(shuō)話的人的背景.
 
  目前,Android的語(yǔ)音識(shí)別器已經(jīng)掌握你的聯(lián)系人列表,因此它可以識(shí)別你的朋友的姓名.地圖產(chǎn)品中的語(yǔ)音搜索可以使用地理定位來(lái)縮小你可能想要瀏覽的感興趣的地點(diǎn).當(dāng)使用這種類型的信號(hào)時(shí),ASR系統(tǒng)的精度肯定會(huì)提高.
 
  部署
 
  當(dāng)要部署一個(gè)新的算法的時(shí)候,可以考慮延遲和算法,因?yàn)樵黾佑?jì)算的算法往往會(huì)增加延遲,但為了簡(jiǎn)單起見(jiàn),接下來(lái)將分別討論.
 
  延遲:完成轉(zhuǎn)錄之后,低延遲是十分常見(jiàn)的,它會(huì)顯著影響用戶的體驗(yàn).因此,幾十毫秒內(nèi)的延遲要求對(duì)于ASR系統(tǒng)來(lái)說(shuō)并不少見(jiàn).雖然這可能聽(tīng)起來(lái)會(huì)有些極端,但這通常是一系列昂貴計(jì)算的第一步,所以,必須謹(jǐn)慎.
 
  將未來(lái)信息有效地納入語(yǔ)音識(shí)別的好方法到目前為止仍然是一個(gè)開(kāi)放的問(wèn)題,有待討論.
 
  計(jì)算:記錄話語(yǔ)所需的計(jì)算能力是一種經(jīng)濟(jì)約束.我們必須考慮到對(duì)語(yǔ)音識(shí)別器的每一個(gè)精度的改進(jìn).如果改進(jìn)不符合經(jīng)濟(jì)閾值,則無(wú)法部署.
 
  一個(gè)從未被部署的持續(xù)改進(jìn)的經(jīng)典例子是集成.1%或2%的誤差降低可能會(huì)達(dá)到2-8倍的計(jì)算增長(zhǎng),現(xiàn)代的RNN語(yǔ)言模型通常也屬于這一類.
 
  實(shí)際上,并不建議在很大的計(jì)算成本上提高準(zhǔn)確性,已經(jīng)有“先慢但準(zhǔn)確,然后加速”的工作模式.但關(guān)鍵在于,直到改進(jìn)足夠快,它仍是不可用的.
 
  未來(lái)五年
 
  語(yǔ)音識(shí)別中還存在許多開(kāi)放性和挑戰(zhàn)性的問(wèn)題.這些包括:擴(kuò)大新領(lǐng)域,口音和遠(yuǎn)場(chǎng),低信噪比;將更多的上下文融入識(shí)別過(guò)程;Diarisation和源分離;超低延遲和高效推理.
 
  期待在今后的五年在這些方面都能取得進(jìn)展.
讀者們,如果你或你的朋友想被手機(jī)報(bào)報(bào)道,請(qǐng)狠戳這里尋求報(bào)道
相關(guān)文章
熱門話題
推薦作者
熱門文章
  • 48小時(shí)榜
  • 雙周榜
熱門評(píng)論