當(dāng)?shù)貢r(shí)間周五(3月29日),美國(guó)人工智能研究公司OpenAI在官網(wǎng)首次分享了名為“Voice Engine”(語(yǔ)音引擎)的預(yù)覽。
據(jù)介紹,通過輸入文本和15秒音頻樣本,Voice Engine便可以生成一個(gè)與音頻中說話者非常相似的自然語(yǔ)音。新聞稿強(qiáng)調(diào),生成的自然語(yǔ)音具有豐富的情感和逼真的聲音。
OpenAI稱,公司在2022年底就啟動(dòng)了Voice Engine的研發(fā)工作,并將它用作一些其他功能的預(yù)設(shè)語(yǔ)音。由于合成語(yǔ)音可能會(huì)被濫用,公司只在小范圍內(nèi)與開發(fā)人員分享了該模型,未來可能不會(huì)廣泛推出這一功能。
新聞稿寫道,兒童教育技術(shù)公司Age of Learning正在使用這個(gè)模型來生成一些預(yù)先編寫好的內(nèi)容,并且還結(jié)合GPT-4 創(chuàng)建實(shí)時(shí)的響應(yīng)來與學(xué)生互動(dòng)。
在案例中,OpenAI放出了一段英語(yǔ)男聲和西班牙語(yǔ)女聲的樣本音頻,并用兩段音頻各生成了講解知識(shí)的語(yǔ)音。
另外,數(shù)字人視頻生成初創(chuàng)公司HeyGen也采用了這項(xiàng)技術(shù)。HeyGen可以根據(jù)內(nèi)容創(chuàng)建定制的數(shù)字人化身,而Voice Engine可以將樣本的聲音轉(zhuǎn)換成多種其他語(yǔ)言,來幫助產(chǎn)品營(yíng)銷到銷售演示。
新聞稿提到,在轉(zhuǎn)換語(yǔ)言時(shí),Voice Engine會(huì)保留原始說話者的母語(yǔ)口音,例如樣本中的人使用的是法語(yǔ),那么生成的英語(yǔ)將帶有法國(guó)口音。本周早些時(shí)候,有消息稱HeyGen正在進(jìn)行新一輪融資,投前估值達(dá)到4.4億美元。
除此以外,OpenAI還展示了生成較小語(yǔ)系和孤立語(yǔ)系聲音的能力,以幫助落后地區(qū)的社區(qū)衛(wèi)生工作者;同時(shí)還與神經(jīng)科學(xué)研究所探索AI在臨床環(huán)境中的應(yīng)用,比如幫助語(yǔ)言障礙者等用途。
“太強(qiáng)大了導(dǎo)致無法推廣”
OpenAI寫道,“我們認(rèn)識(shí)到,生成聲音的功能存在嚴(yán)重風(fēng)險(xiǎn),這一點(diǎn)在大選年尤為突出。我們正在與來自政府、媒體、娛樂、教育等領(lǐng)域的國(guó)際合作伙伴合作,以確保我們?cè)诮ㄔO(shè)過程中吸收他們的反饋。 ”
OpenAI產(chǎn)品負(fù)責(zé)人Jeff Harris告訴媒體,“如果你能正確地設(shè)置音頻,基本上就能生成人類口徑的聲音,這是一種相當(dāng)令人印象深刻的技術(shù)?!钡獺arris提到,準(zhǔn)確模仿人類語(yǔ)音的能力確實(shí)存在安全隱患。
今年1月,美國(guó)就出現(xiàn)“AI拜登”事件,由AI生成的“假拜登”在電話中用逼真的聲音鼓勵(lì)可能支持民主黨的5000位選民在新罕布什爾州初選中不要投票。本月早些時(shí)候,拜登呼吁國(guó)會(huì)通過立法來監(jiān)管AI,包括禁止“AI語(yǔ)音模仿”等。
在測(cè)試計(jì)劃中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用語(yǔ)音樣本之前要征得聲音主人的同意,并明確告訴聽眾聲音是AI生成的。該公司還在安裝一種聽不見的音頻水印,以區(qū)分音頻是否是由其工具創(chuàng)建的。
OpenAI寫道,“無論我們最終是否會(huì)廣泛部署這項(xiàng)技術(shù),讓全球各地的人們了解這個(gè)發(fā)展方向都是非常重要的?!?/p>
本文轉(zhuǎn)自財(cái)聯(lián)社,作者:趙昊;智通財(cái)經(jīng)編輯:李程