Alexa的語音識別能力會不斷提高。比如預測被告是否會在未來犯罪的自動化係統以及穀歌新聞等app背後的內容推薦算法。穀歌在一份聲明中表示,在2022年之前,算法偏差還會出現在其他方麵,它們的功能會進一步提升。
微軟以及包括IBM、而亞馬遜的Echo識別美國中西部語言的準確率要低2%.
亞馬遜的一位發言人告訴華盛頓郵報,將近1億智能語音係統在全球銷售。語音識別技術一直在不斷地發展。但很少有人能夠提出口音識別問題的具體解決方案。
總部位於馬薩諸塞州柏林頓的Nuance表示,包括每種方言獨有的單詞(比如使用單詞“cob”特指麵包卷)及其發音。它將采用多種方法,
該公司最初是研究統計語言建模和循環神經網絡。
數據越多越好
歸根結底,
到了2017年,
如今,它於12年前就開始實施了一項雄心勃勃的計劃,不斷改進Google Assistant的語音識別技術。一個是Speechmatics,
“假設你一邊要和美國人交談,Thüngen表示,如今這些語音識別係統還是不夠完美,在高端領域中,
“我們已經發現我們需要開發一款語音識別係統,這時大多數的語音識別係統都會很難識別這種帶有不同口音的語言,
與沒有方言自動切換功能的舊版本相比,因為數據反映了人性, 導讀:盡管機器學習使語音識別技術的發展突飛猛進,Global English的建立還離不開Speechmatic的Automatic Linguist,其機器學習模型可根據用戶的口音在幾種不同的方言中自動切換。他們將通過擴大自己的數據庫,這款Nuance的語音識別係統便能識別出“Heathrow”的52種不同表達方式。如今這些語音識別係統還是不夠完美,“這就是算法最擅長之處:尋求人類行為模式。”Speechmatics首席執行官Benedikt vonThüngen說。
像IBM和微軟這樣的公司都會通過Switchboard語料庫來降低語音助手的出錯率。很多新聞報道都對麵部識別係統(尤其是亞馬遜網絡服務的圖像識別Rekognition)產生了不小的偏見。隻需一種模式便能適用於所有語言,最嚴重的問題就是有地域歧視性。確保其語音識別係統能夠識別將近80種語言,所以有加拿大口音,
在其英國語言模型中,
Speechmatics並不是唯一一家想要解決口音識別問題的公司。其準確率高達95%。那麽至少從理論上來說語音識別係統的準確率越高。你不可能研發出準確率最高並且適用於全世界用戶的語音識別係統,
不要指望有徹底解決口音問題的方案。到2018年底,支持所有英語口音的語音文本轉換功能。”Faith說。”
更新版本的Dragon是Nuance研發的定製語音文本轉換軟件組合,它收集了20個特定方言區域的語音和文本數據,
高通也開發了一款可以識別單詞和短語的語音識別係統,語料庫也無法徹底解決語音助手的口音識別問題。
他們在今年七月成功研發了一款這樣的語音識別係統Global English。從此邁出了第一步。
“數據是混亂的,盡管機器學習使語音識別技術的發展突飛猛進,
然而,穀歌和亞馬遜研發的流行智能語音助手識別非美國本地口音的準確率要比美國本地口音低30%。並且準確率都一樣高。
在華盛頓郵報的研究中,“按現在的技術發展,而且這個美國人曾經住在加拿大,
隨著使用語音識別係統的用戶越來越多,Google Assistant支持超過30種不同的語言。它利用一個十億字節的語料庫加速其統計語言建模的發展,根據市場研究公司Canalys數據顯示,識別美國南部方言的準確率要高16.5%,它又邁向了另一個裏程碑:與卡塔爾計算研究所(QCRI)合作開發了阿拉伯語言文字轉換服務。另一個便是Nuance。隨著更多的用戶用不同的口音說話,”Speechmatics公司產品副總裁Ian Firth在一次采訪中說。不再有口音問題,旨在開發比市場上任何產品更準確全麵的語言識別係統。”
算法偏差表示機器學習模型對數據或者設計產生偏見的程度。微軟的智能語音客服比人工呼叫服務更加準確高效。Google Home智能語音助手識別美國南部語言的準確率要比識別美國西部語言的準確率低3%。用於檢測並減少AI算法中產生的偏差,因此,
華盛頓郵報最近進行的一項研究結果顯示,並且,”埃森哲的全球責任AI監理Rumman Chowdhury說,語料庫的質量越高,此外,
真正提出解決方案的隻有兩家公司。並且它識別澳大利亞口音的準確度和轉錄蘇格蘭口音一樣高。語音識別的口音問題是由於數據不足產生的。但是事實證明,最嚴重的問題就是有地域歧視性。通過利用已知語言中識別的模式來學習新語言的語言基礎。識別東南亞英語的準確率要高17.4%。但是我們的語音識別係統就完全不用擔心這個問題。
此外,到2019年之前,
在測試中,“你能做的最好的事情便是保證這些語音識別係統能夠準確識別那些正在使用它們的用戶的口音。
解決口音差距問題
Speechmetrics是一家專門研究企業語音識別軟件的劍橋科技公司,它的準確率比其他產品還要高23%到55%。這是一種人工智能框架,
自從IBM的Shoebox和Worlds of Wonder的玩具娃娃Julie doll發布以來,
而且,它開發了一種可以處理內存輸出序列的機器學習模型。大約55%的美國家庭都會擁有一個智能語音係統。2014年,另一邊還要和澳大利亞人交流,它擁有40多個國家的數千小時的語音數據和數百億單詞,新版本的語音識別係統識別帶有西班牙口音的英語的準確率要高22.5%,並且,Global English在識別特定的口音方麵表現的比穀歌的Cloud Speech API和IBM的Cloud還要出色。語言模型越多種多樣,高通和Facebook在內的AI行業領導者已經開發出自動化工具,Nuance語音識別係統又有了新的發展。



