音頻技術(shù)迎來新標(biāo)準(zhǔn):AI正重塑實(shí)時(shí)音頻傳輸體驗(yàn)

2024年06月28日 11:11   21世紀(jì)經(jīng)濟(jì)報(bào)道 21財(cái)經(jīng)APP   白楊
這項(xiàng)標(biāo)準(zhǔn)讓用戶在2G網(wǎng)絡(luò)下也能開會(huì)。

 21世紀(jì)經(jīng)濟(jì)報(bào)道記者白楊 北京報(bào)道

6月中旬,音視頻編解碼標(biāo)準(zhǔn)(AVS)工作組正式宣布,《信息技術(shù) 智能媒體編碼 第10部分:實(shí)時(shí)語音》(以下簡稱AVS3-P10)已經(jīng)完成FCD(Final Committee Draft)階段,即將正式對外發(fā)布。

AVS3-P10是全球首個(gè)系統(tǒng)性引入人工智能并實(shí)現(xiàn)真正意義上的低碼率下高質(zhì)量語音編碼標(biāo)準(zhǔn),為全球語音技術(shù)的發(fā)展帶來了革命性突破。

簡單來說,AVS3-P10僅需現(xiàn)有主流標(biāo)準(zhǔn)1/3的編碼碼率,就能實(shí)現(xiàn)同等清晰的音質(zhì)。這意味著,即使在電梯、地庫、隧道等網(wǎng)絡(luò)很差的環(huán)境,以及在“2G”網(wǎng)絡(luò)下,也能實(shí)現(xiàn)清晰流暢的語音通話。

該標(biāo)準(zhǔn)以騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器Penguins為原型,由騰訊提議啟動(dòng)、推進(jìn)和維護(hù),并經(jīng)過AVS音頻組多家成員單位共同貢獻(xiàn)。

6月26日,作為AVS3-P10標(biāo)準(zhǔn)的起草人,騰訊會(huì)議天籟實(shí)驗(yàn)室專家研究員肖瑋接受了21世紀(jì)經(jīng)濟(jì)報(bào)道記者的采訪,并向記者還原了Penguins從誕生到成為行業(yè)標(biāo)準(zhǔn)的全過程。

“聽得夠清”與“壓得夠小”兼得

如何在一定的帶寬占用下,盡可能地提高音頻質(zhì)量,或者在保持質(zhì)量情況下,盡可能地減少帶寬利用率?

在音頻編解碼領(lǐng)域,這始終是行業(yè)難題。肖瑋稱,“聽得夠清”和“壓得夠小”,就像一對蹺蹺板——如果音頻體積太大,弱網(wǎng)環(huán)境下就會(huì)導(dǎo)致通話卡頓;但如果壓得過度,音頻質(zhì)量受損,清晰度下降,就會(huì)聽不清。

為了解決這個(gè)問題,騰訊于2020年啟動(dòng)研發(fā)Penguins編解碼器項(xiàng)目。據(jù)肖瑋介紹,該技術(shù)的核心思路是:先通過建立語音信號模型,捕捉音頻的核心特征,實(shí)現(xiàn)大幅度壓縮、降低體積;再借助深度學(xué)習(xí)網(wǎng)絡(luò),預(yù)測并重建語音中的細(xì)微結(jié)構(gòu),最終生成逼真的音頻波形。

這個(gè)場景依靠傳統(tǒng)音視頻技術(shù)已難以實(shí)現(xiàn),騰訊是將AI與傳統(tǒng)技術(shù)緊密融合,通過對算法研究、工程化、產(chǎn)品化層面的系統(tǒng)性創(chuàng)新,打破了傳統(tǒng)香農(nóng)定律的性能極限。

 肖瑋表示,傳統(tǒng)的語音編碼器,包括AVS、ITU-T、3GPP、IETF等標(biāo)準(zhǔn)語音編碼器,在16-20kbps左右碼率時(shí),能夠恢復(fù)出高質(zhì)量寬帶語音;在30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語音。然而,當(dāng)碼率進(jìn)一步降低,比如降到10kbps以下時(shí),傳統(tǒng)語音編碼器恢復(fù)的質(zhì)量下降明顯。

而Penguins編解碼器實(shí)現(xiàn)了6kbps下的高質(zhì)量語音通信,且主觀質(zhì)量非常接近原始參考信號,可媲美國際主流的OPUS標(biāo)準(zhǔn)在20kbps的質(zhì)量。同時(shí),在主觀質(zhì)量對標(biāo)傳統(tǒng)編碼的中高碼率情況下,Penguins的編碼效率可提升200%~300%。

 2021年11月,Penguins編解碼器首次發(fā)布,并逐步落地到騰訊會(huì)議(駕駛模式及弱網(wǎng)模式)、QQ語音通話等騰訊產(chǎn)品當(dāng)中,目前已服務(wù)億級用戶。

從內(nèi)部技術(shù)到行業(yè)標(biāo)準(zhǔn)

在通信系統(tǒng)中,標(biāo)準(zhǔn)的意義重大。因?yàn)楦鲝S商都傾向于部署標(biāo)準(zhǔn)的語音編解碼協(xié)議,以避免互聯(lián)互通的問題。

在成立的20多年里,AVS工作組已經(jīng)制定了三代音視頻編碼標(biāo)準(zhǔn),且每一代標(biāo)準(zhǔn)都會(huì)較前一代有大幅度性能提升。而在這些標(biāo)準(zhǔn)制定過程中,包括騰訊、阿里巴巴、華為、字節(jié)跳動(dòng)等企業(yè)在內(nèi)的互聯(lián)網(wǎng)公司,扮演了至關(guān)重要的角色。

2023年3月,騰訊團(tuán)隊(duì)開始推動(dòng)Penguins方案成為行業(yè)標(biāo)準(zhǔn)。在第85次AVS會(huì)議上,AVS工作組正式立項(xiàng)AVS3-P10實(shí)時(shí)語音編碼項(xiàng)目。 

隨后,AVS音頻組審議了由騰訊提交的《AVS3-P10語音編碼參考模型候選技術(shù)方案》提案,并在2023年12月第 87 次 AVS 會(huì)議上,宣布AVS3-P10 WD 1.0通過全體會(huì)議審議。這意味著騰訊提交的技術(shù)方案,正式被確定為AVS3-P10實(shí)時(shí)語音編碼的RM0基線。 

在今年3月舉辦的第88次AVS會(huì)議上,AVS音頻組組長、清華大學(xué)教授竇維蓓宣布AVS3-P10已經(jīng)完全滿足技術(shù)需求。緊接著在6月的第89次AVS工作組會(huì)議上,AVS3-P10完成FCD階段,正式成為了行業(yè)標(biāo)準(zhǔn)。

AVS工作組指出,“AVS3-P10 作為新一代語音編解碼技術(shù)標(biāo)準(zhǔn),是對AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。該標(biāo)準(zhǔn)是當(dāng)前業(yè)界的最高水平,將為用戶帶來更好的體驗(yàn)”。

肖瑋向記者表示,最終的AVS3-P10標(biāo)準(zhǔn)不完全等于騰訊方案,因?yàn)樵谡麄€(gè)標(biāo)準(zhǔn)化過程中,除了騰訊主導(dǎo)的AI這部分以及系統(tǒng)架構(gòu)以外,還借鑒了AVS其他標(biāo)準(zhǔn)中的技術(shù),這些技術(shù)均是來自AVS音頻組成員單位包括高校和企業(yè)。

“標(biāo)準(zhǔn)的目的是達(dá)成共識?,F(xiàn)在AI技術(shù)這么火,提供了很多新范式,不同廠商如果有機(jī)會(huì)肯定都會(huì)做新的編碼器。騰訊推動(dòng)AVS3-P10標(biāo)準(zhǔn),就是希望讓大家看到這樣一個(gè)新的技術(shù)方向”。肖瑋說。

關(guān)注我們