根據開源社區Hugging Face 10月29日最新榜單數據,SoulX-Podcast模型在發布第二天登頂TTS(Text To Speech,從文本到語音)趨勢榜。

此前,Soul App AI團隊(Soul AI Lab)聯合西北工業大學ASLP@NPU團隊和上海交通大學X-LANCE Lab正式開源SoulX-Podcast,該模型是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。
傳統語音合成系統在多人、多輪對話場景常面臨一些痛點問題,例如上下文銜接不自然;缺少副語言(如笑/嘆氣)、方言等的可控生成能力,缺少“活人感”;情緒狀態無法隨對話內容流暢改變,影響沉浸體驗等。SoulX-Podcast致力于解決這些核心問題,其在播客場景、通用語音合成或克隆場景下出色表現,以及生動、真實的語音體驗也讓該模型在開源社區發布后迅速獲得關注。
作為全球最大AI開源社區,Hugging Face匯聚了超百萬開發者,海量開源模型在此發布,全球活躍開發者們則“用手投票”,讓高性能表現、高效易用的模型脫穎而出。SoulX-Podcast在發布第二天快速沖上Hugging Face TTS趨勢榜榜首,并且在趨勢總榜排名持續上升中。這也證明了行業對AI語音對話的關注,以及模型本身的較高吸引力和討論度。

在開源社區受到廣泛關注之外,SoulX-Podcast在發布后也引發了眾多AI從業者、AI發燒友的討論,以及對國產語音合成開源模型能力的認可。

Hugging Face CEO Clément Delangue 轉發相關討論內容


據了解,Soul AI團隊未來將持續聚焦語音對話合成、全雙工語音通話、擬人化表達、視覺交互等核心交互能力的提升,并加速技術在多樣化應用場景與整體生態中的融合落地,為用戶帶來更加沉浸、智能且富有溫度的交互體驗,持續提升個體的幸福感與歸屬感。同時,團隊將進一步深化開源生態建設,與全球開發者攜手,共同拓展 AI 語音等前沿能力的邊界,探索 “AI +社交” 的更多可能。
Demo Page: https://soul-ailab.github.io/soulx-podcast
Technical Report: https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast
關鍵詞: