近日語音生成領域迎來關鍵技術落地,Qwen團隊近期正式開源Qwen3-TTS全家桶模型,為開發者及企業用戶提供壹站式、全場景語音生成解決方案,推動語音交互技術向低成本、高適配性升級。
技術層面,該系列模型實現多重創新突破。其自研的多碼本語音編碼器Qwen3-TTS-Tokenizer-12Hz,可高效壓縮語音信號並精準保留語調、重音等副語言信息及聲學環境特征;輕量級非DiT架構搭配Dual-Track雙軌建模技術,將首包音頻響應時間縮短至單字符輸入級,大幅提升實時交互體驗,兼顧生成效率與音質保真度。
產品設計上,模型提供1.7B和0.6B兩種參數版本,分別適配極致性能需求與輕量化應用場景,可滿足不同資源條件下的開發需求。同時支持10種主流語言及多種方言音色,具備強大的上下文語義適配能力。據悉,此次開源通過GitHub及Qwen API接口開放技術能力,顯著降低語音生成技術的應用門檻,有望快速滲透至智能客服、有聲內容創作、跨語言翻譯等多個領域。
新時空聲明: 本內容為新時空原創內容,復制、轉載或以其他任何方式使用本內容,須註明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠,但不保證數據絕對正確。本內容僅供參考,不構成任何投資建議,交易風險自擔。