網站地圖 - 關于我們
您的當前位置: 首頁 > 資訊 > 資訊 正文

趣丸科技聯合港中大(深圳)開源首個語音大模型,效果全球領先躋身第一梯隊

作者:網絡 時間:2024-10-25 10:57 點擊:
導讀:10月24日,趣丸科技宣布與香港中文大學(深圳)聯合研發的語音大模型“MaskGCT”正式開源,面向全球用戶開放使用。區別于傳統TTS模型,該模型采用掩碼生成模

10月24日,趣丸科技宣布與香港中文大學(深圳)聯合研發的語音大模型“MaskGCT”正式開源,面向全球用戶開放使用。區別于傳統TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創新范式,在聲音克隆、跨語種合成、語音控制等任務中展現出卓越效果。

趣丸科技聯合港中大(深圳)開源首個語音大模型,效果全球領先躋身第一梯隊(圖1)

據介紹,MaskGCT在三個TTS基準數據集上都達到了SOTA效果,超過當前最先進的同類模型,某些指標甚至超過人類水平。顯著特點如下:

1、秒級超逼真的聲音克?。?/strong>提供3秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色,且能完整復刻語調、風格和情感。

2、更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。

3、高質量多語種語音數據集:訓練于香港中文大學(深圳)和趣丸科技等機構聯合推出的10萬小時數據集Emilia,是全球最大且最為多樣的高質量多語種語音數據集之一,精通中英日韓法德6種語言的跨語種合成。

趣丸科技聯合港中大(深圳)開源首個語音大模型,效果全球領先躋身第一梯隊(圖2)

據介紹,MaskGCT(Masked Generative Codec Transformer)是一個大規模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監督和音素級持續時間預測。其技術突破性在于采用掩碼生成模型與語音表征解耦編碼的創新范式。實驗表明,MaskGCT在語音質量、相似度和可理解性方面優于當前最先進的TTS模型,并且在模型規模和訓練數據量增加時表現更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(深圳)與上海人工智能實驗室聯合開發的開源系統Amphion發布。

該模型研發團隊在語音領域擁有深厚的研究積累和原創性成果。這主要依托趣丸科技十年深耕音頻技術領域和億級高質量語音用戶的服務經驗,以及香港中文大學(深圳)國際一流水平的師資隊伍。早在今年5月份,趣丸科技就與香港中文大學(深圳)宣布共建聯合實驗室,針對人工智能音頻大模型相關的前沿課題進行研究,旨在突破行業難題,促進產學研深度融合,打造技術領先的生成式音頻大模型,填補業界空白。

趣丸科技聯合港中大(深圳)開源首個語音大模型,效果全球領先躋身第一梯隊(圖3)

目前,MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規下,趣丸科技打造了多語種速譯智能視聽平臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現字幕修復與翻譯、語音翻譯、唇音同步等功能。該產品進一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內容出海的理想選擇平臺。


打賞

取消

感謝您的支持,我會繼續努力的!

掃碼支持
掃碼打賞,你說多少就多少

打開支付寶掃一掃,即可進行掃碼打賞哦

網友評論:

推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件

Copyright ? 2021 早報網 版權所有
蘇ICP備2024138443號

蘇公網安備32130202081338號

本網站所刊載信息,不代表早報網觀點。如您發現內容涉嫌侵權違法立即與我們聯系客服 106291126@qq.com 對其相關內容進行刪除。
早報網登載文章只用于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內容僅供參考,不構成投資建議。投資者據此操作,風險自擔。
《早報網》官方網站:www.m.shengcaiquan.cn互聯網違法和不良信息舉報中心
Top 主站蜘蛛池模板: 弥渡县| 龙南县| 乐业县| 平果县| 固镇县| 镇雄县| 和平区| 于都县| 万宁市| 潜江市| 中方县| 襄城县| 东明县| 三门峡市| 平阴县| 奉贤区| 青浦区| 栾城县| 同仁县| 来凤县| 固安县| 白河县| 龙口市| 玉龙| 胶南市| 嘉义市| 靖安县| 贵南县| 南汇区| 龙门县| 阿克陶县| 洛南县| 东丽区| 福安市| 理塘县| 景宁| 永年县| 嘉定区| 朝阳市| 肥西县| 嘉荫县|