Qwen3-TTS全家桶開源上線，語音生成技術破局賦能多產業數字化

新時空 · 2026/01/23 15:44 · 林敘然

Qwen團隊近日正式開源Qwen3-TTS語音生成模型全家桶，憑借多碼本編碼器、雙軌建模等核心技術，實現高效壓縮、實時交互與高保真還原三大突破。模型提供兩種參數版本及多語言支持，開放API接口降低開發門檻，有望加速語音技術在智能交互、跨語言服務等領域的商業化落地，重塑數字內容生產及相關產業生態。

近日語音生成領域迎來關鍵技術落地，Qwen團隊近期正式開源Qwen3-TTS全家桶模型，爲開發者及企業用戶提供一站式、全場景語音生成解決方案，推動語音交互技術向低成本、高適配性升級。

技術層面，該系列模型實現多重創新突破。其自研的多碼本語音編碼器Qwen3-TTS-Tokenizer-12Hz，可高效壓縮語音信號並精準保留語調、重音等副語言信息及聲學環境特徵；輕量級非DiT架構搭配Dual-Track雙軌建模技術，將首包音頻響應時間縮短至單字符輸入級，大幅提升實時交互體驗，兼顧生成效率與音質保真度。

產品設計上，模型提供1.7B和0.6B兩種參數版本，分別適配極致性能需求與輕量化應用場景，可滿足不同資源條件下的開發需求。同時支持10種主流語言及多種方言音色，具備強大的上下文語義適配能力。據悉，此次開源通過GitHub及Qwen API接口開放技術能力，顯著降低語音生成技術的應用門檻，有望快速滲透至智能客服、有聲內容創作、跨語言翻譯等多個領域。

新時空聲明： 本內容爲新時空原創內容，復制、轉載或以其他任何方式使用本內容，須注明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠，但不保證數據絕對正確。本內容僅供參考，不構成任何投資建議，交易風險自擔。

關鍵詞：