說一聲“啟動汽車”,引擎馬上開啟;下班回家對著智能門鎖喊一聲“開門”,門鎖應聲而開;對著智能電視喊個話,它就能為你播放專屬的視頻內(nèi)容……阿里巴巴用“芝麻開門”打開了寶藏,我們能用聲紋識別做什么?
近日,從人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟 - 得意音通聲紋技術聯(lián)合實驗室獲悉,聲紋識別在過去一年,從場景側不斷下沉,更加落地。作為語音賽道一個重度垂直的領域,聲紋識別終于從“等風來”,成為站在“風口”上的技術。
根據(jù)清華大學人工智能研究院聽覺智能研究中心、人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟 - 得意音通聲紋技術聯(lián)合實驗室、中國電信股份有限公司研究院聯(lián)合發(fā)布的《中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書 2.0》,2020 年,聲紋技術廠商融資事件達到過去 4 年最多,投資總額僅次于 2018 年。雖融資熱度和頻次無法與最熱門的應用領域相比,但在疫情當下以及貫穿 2019-2020 始末的資本寒冬中,已經(jīng)算是例外了。
?
從白皮書對百度、京東、微信等搜索詞分析來看,聲紋識別與支付、反欺詐、門禁、門鎖、考勤等具體應用場景緊密聯(lián)系在一起,這也從一定程度上反映出了聲紋技術當前主要的落地方向。
國內(nèi)聲紋廠商主要有哪些?
<與非網(wǎng)>對國內(nèi) 20 多家聲紋識別企業(yè)進行了匯總分析,這些企業(yè)也從一定程度上反映了語音技術的三個發(fā)展階段:
早期以 2000 年~2007 年成立的專注于聲紋技術的廠商為代表,如得意音通、中科信利、遠鑒科技、廈門天聰?shù)?,主要背靠清華大學、廈門大學、中科院聲學所、自動化研究所等高校和科研機構,這些老牌企業(yè)掌握了深厚的技術積累和核心專利。
2007-2015 年間,思必馳、云知聲等算法廠商入局,憑借對場景的理解和核心技術的布局,抓住了語音發(fā)展的先機。
2016 年開始,人工智能的發(fā)展帶動了一批初創(chuàng)企業(yè),聲揚、聲智、中科昊音等都是在這波 AI 紅利中成長和誕生的公司,這些企業(yè)融資節(jié)奏通常比較快,正加緊在專利布局、落地上發(fā)力。
?
?
2020 年聲紋識別三大落地應用
疫情下聲紋考勤興起
今年聲紋技術主要的落地場景之一就是聲紋考勤。在疫情的非接觸需求下,今年 2 月,國務院印發(fā)《企事業(yè)單位復工復產(chǎn)疫情防控措施指南》,明確要求暫時停用指紋考勤機,改用其他方式對進出人員進行登記。
同時,人臉支付也被“降溫”。2 月,中國人民銀行營業(yè)管理部就制定的《北京市非銀行支付機構復工復產(chǎn)防疫工作指引》中提出,要優(yōu)化和豐富“非接觸式服務”渠道和場景,強調疫情防控期間,暫緩人臉識別支付商戶拓展。
語音具有天然的“非接觸”特性,具體到聲紋這個細分領域,它可以根據(jù)每個人的語音特征和發(fā)音習慣進行動態(tài)識別,非常適用于進行身份認證的場景應用中。
在與清華大學人工智能研究院聽覺智能研究中心主任、得意音通創(chuàng)始人鄭方博士的交流中,筆者曾獲悉,“無接觸”將沉淀為今后遴選生物識別技術的核心要素之一,特別是在 B 端場景(例如考勤)。聲紋天然具有“無接觸”的特點,并且不怕被口罩遮擋,應用成本低,聲紋產(chǎn)品將成為考勤市場中強有力的競爭者。
他認為考勤產(chǎn)品未來主要有兩大方向:一是從集中轉向分布、線下轉為線上線下結合,也就是說,不再需要單一的考勤機設備,而是直接由員工在各自手機上完成打卡,既提高效率,又保障衛(wèi)生;二是單純的考勤功能可能會與門禁功能結合,可以是集中,也可以是分布。得意音通在聲紋考勤迭代上主要有三個方向:一是更“輕”,如增加小程序等入口;二是更“重”,注重與門禁等設備結合;三是更安全,還可與人臉技術結合,具體會根據(jù)市場反饋來規(guī)劃。
金融 / 政務服務依舊是大市場
除了疫情下醞釀的新應用,聲紋識別最早實現(xiàn)規(guī)模化商用的是在金融領域。金融領域因其豐富的場景、海量的數(shù)據(jù)、對可靠性的高要求和廣泛的用戶反饋等,一直是前沿技術在民用領域(相較于公共安全領域)的理想試金石。聲紋識別也不例外,4G 時代,金融行業(yè)催生了手機銀行這一形態(tài)并迅速普及,使得金融級遠程身份認證的需求激增,而聲紋識別剛好可以滿足這個需求。
根據(jù)白皮書顯示,到 2020 年下半年,約有 30 家銀行機構采購了聲紋識別技術產(chǎn)品,其中“動態(tài)聲紋密碼”的聲紋登錄成為第一大應用場景,可用于賬戶登錄、大額轉賬、無卡取款、密碼找回等業(yè)務場景。微信和支付寶也上線了基于聲紋動態(tài)口令的登錄方式。此外,在信貸業(yè)務中引入聲紋識別技術作為反欺詐手段,還可有效降低冒用他人身份進行騙貸以及多頭貸款等事件的發(fā)生率。
?
在政務服務市場,聲紋識別也發(fā)掘到一個極具潛力的應用——城鄉(xiāng)養(yǎng)老保險是社會保障體系的重要組成部分,然而冒領養(yǎng)老金的事件時有發(fā)生,每年冒領總金額以億元計,但若要求高齡老人親臨現(xiàn)場驗明身份又非常不便。社保局通過預裝聲紋身份認證系統(tǒng),通過 1:1 聲紋確認技術,就可以進行遠程身份認證。
另據(jù)白皮書顯示,隨著電信詐騙案件頻發(fā),聲紋特征在公共安全領域的應用價值越來越凸顯出來。公安部將聲紋識別技術已經(jīng)納入防治方案,建庫規(guī)范提上日程。
智能生活成為藍海
除了上述應用,聲紋識別的下一個藍海市場有望在智能生活場景中產(chǎn)生,目前已經(jīng)開始落地的有智能家居、智能車載等應用。
按任務分類的話,聲紋識別有 1:1 和 1:N 兩大類應用,前者主要進行聲紋確認,上面提到的金融、社保等都屬于 1:1 確認,通過給定一個說話人的聲紋模型和一段只含一名說話人的語音,判斷該語音是否是該說話人所說。而在 1:N 應用中則屬于聲紋辨認,是根據(jù)一組候選說話人的聲紋模型和一段語音,來判斷該語音是哪個說話人所說,適用于公安、安防、智能生活等場景。
隨著語音交互場景的成熟,各種個性化的服務需求漸漸浮現(xiàn)出來。通過 1:N 的聲紋辨認技術,可支持智能音箱、智能語音助手等提供個性化服務,如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞,以及開放特定的功能權限等;利用聲紋檢出和追蹤技術,可在會議紀要中標注每段話所對應的說話人,即可輕松完成多人會議記錄,這一功能在市面上一些錄音筆中已包括。此外,聲紋識別還可完成個人日常生活中各種事物訪問控制的授權,比如智能手機鎖屏、各類網(wǎng)絡賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等。
思必馳目前在其全鏈路對話式 AI 中,特別針對車載場景下通過聲紋識別進行優(yōu)化升級,提供更多個性化的服務方式。
云知聲也將聲紋識別技術引入到深度學習領域,聯(lián)手平安好醫(yī)生打造客戶端“聲紋登錄系統(tǒng)”,并與國家電網(wǎng)合作了會議系統(tǒng)聲紋識別項目。
以計算機視覺起家的依圖科技,近兩年也開始在智能語音發(fā)力,2019 年宣稱在全球聲紋識別競賽中奪得第一,雖然后續(xù)并無太多聲紋方面的成果更新,但也反映出依圖對聲紋的重視,多模態(tài)應該是其未來的布局方向。
智能家居是民用場景中最早擁抱聲紋技術的,例如長虹已經(jīng)在電視、空調中先后加入聲紋識別功能,使得家電也能夠智能識別用戶身份,開啟私人訂制模式。
互聯(lián)網(wǎng)廠商也在積極布局。
百度前幾年在國際上發(fā)布過聲紋識別方面的論文,今年在小度智能屏中,聲紋識別功能已經(jīng)成為賣點之一。
阿里約在 3 年前開始推廣聲紋識別,主要運用于平臺用戶的身份核驗,比如在線身份校驗服務,用戶可通過聲紋識別在手機淘寶進行密碼修改等。
騰訊云也與微信智能團隊共同推進聲紋識別,借助云端大數(shù)據(jù)的優(yōu)勢,根據(jù)個人屬性提供更多差異化服務內(nèi)容,并進一步提升安全性,運用在安保、金融、智能硬件等領域。
寫在最后
在 AIoT 的推動下,聲紋識別技術有望推動一些場景的升級迭代,在未來的人機交互中,帶動從硬件到軟件在更多商用場景中的發(fā)展。多模態(tài)的技術應用可能會率先興起,比如在身份識別場景中,通過聲紋+人臉融合驗證,在精度要求、安全保障以及不同場景下的體驗提升都能得到滿足。
這從當前的國際技術趨勢上也可以看到一些發(fā)展軌跡,例如通過多模態(tài)建模,將人臉和聲紋中的信息和參數(shù)融合在一個架構和模型中,實現(xiàn)語音內(nèi)容和說話人身份同時識別、語種和說話人身份同時識別等。
?