在當下的AI產業語境裏,“語音”常被視作壹個不起眼的模態。相比文本生成、圖像生成、視頻換臉這些風口,純語音似乎既不炫技,也難出圈。但就在這個看似“低關註度”的領域裏,壹個不到20人的團隊,卻用壹項“聲音克隆”技術打通了影視、短劇、教育、電商、文旅甚至國家宣傳的跨語種市場,悄然跑出數百萬美元的全球營收。
我們訪談了VMEG聯合創始人宋開發。這支團隊專註於讓壹個人“用自己的聲音,說出從未說過的語言”,並實現聲音情緒、語速、語調、氣息的精準擬人化還原。聽起來簡單,實則是極難的“納米級”情感克隆工程。
我們在壹次深度對話中,聊到了他們如何抓住短劇與影視內容出海的浪潮,如何與德國電視臺、南印度影視公司、日本地方文旅局達成合作,又是如何將技術打磨到“AI配音沒有80分,只有99.9分”的專業標準。從壹個偶然接觸大理石廠商的定制需求出發,到如今站在全球內容跨語種傳播的關鍵節點,宋開發和他的團隊,正在用“聲音”重構AI出海的認知邊界。
壹場關於聲音的全球化實驗
大多數AI出海的故事都離不開流量紅利:用AI做圖、寫文案、改視頻,賣給最先擁抱工具的新用戶群。但VMEG做的事反其道而行。他們沒有去追大模型、也沒有卷多模態,而是從壹個大理石廠商的需求起步——“把我的聲音變成阿拉伯語”。這聽上去像是壹個不起眼的定制請求,卻意外打開了聲音人格跨語言遷移的想像空間。
他們沒有做傳統字幕、也沒有用數字人,而是執著地“復刻妳本人”——保留原聲的情緒密度、語氣起伏、氣息強弱,甚至在0.1秒內還原“悄悄話”的呼吸感。這種程度的擬人化,讓聲音從“傳遞內容”變成了“重構身份”。換句話說,是妳說了那句話,即便妳從未學過那種語言。
這不是翻譯,這是擬態。不是工具,這是人格。
而且最重要的是——用戶願意為此付高價。VMEG的海外客戶中,有人為十分鐘視頻支付上百美元,只因為他們不想要“聽起來像”,他們要“聽起來是我”。這份需求並不情緒化,反而極具商業價值。因為對於全球內容創作者來說,這是壹場身份延展的革命。
本地化的盡頭,是情感的保留
語言本身並不是障礙,障礙在於妳在翻譯的過程中丟失了誰。
當妳把壹個印度明星的聲音翻譯成另壹種方言,他不是不願意被翻譯,而是不願被替換。VMEG抓住的正是這個細節——翻譯不是讓妳“聽懂”,而是讓妳“仍然是妳”。
比如德國人幾乎不看英語內容,壹定要有德語配音;南印度觀眾拒絕北方方言,要聽地道的本地語調;泰國文旅宣傳片的企業主堅持用“自己本人的聲音”介紹公司;印度電影公司不接受通用配音,只要明星的原聲情緒被完整遷移……這是文化自尊與本地情感的高度綁定,也是所有“簡單字幕翻譯”無法解決的深層問題。
而AI聲音克隆,恰好成為了最精巧、最低侵入的解決方案。
它既沒有破壞本人的身份感,也不強行替換,而是用技術延展出壹個“情感不缺席”的多語言人格版本。這種“軟入侵式”的跨文化表達,正是中國AI公司極少觸達的全球語言市場空白。
隱形擴張,不靠流量靠精準場景
相比於卷模型、卷視頻生成的AI創業者,VMEG的路線安靜而有效。他們沒有用補貼換數據,也沒有靠熱點營銷,而是用“場景爆破”的方式,壹點點打開了聲量。
短劇、影視、教育、電商、廣告、文旅,每壹個垂直場景都像壹個音頻工坊,源源不斷地產出有價值的定制需求。而配音這種服務,有天然的標準化維度(時長、語種、情緒強度),又有個性化的非標要求(語速控制、哭腔表達、老人小孩音色)。這讓他們能清晰定價,也能精準打穿。
比如壹位YouTube博主擁有200萬粉絲,每天發佈39種語言的視頻,其中19種語言用的是VMEG服務,每日產生400分鐘翻譯配音內容,單壹客戶年訂單就能達數十萬美元。
再比如印度、韓國、日本的壹線IP內容公司,已經開始將內容制作外包至中國,然後通過VMEG翻譯全球發行。這是壹條極具“中國供應鏈優勢”的文化內容反向外包路徑,正在被聲音AI悄然承載。
投資人應該看見的,是判斷標準的清晰度
宋開發分享了壹個極具洞察力的觀點:創業最難的,不是做出壹個產品,而是找不到“誰能判斷妳的產品好不好”。
AI視頻營銷的好壞,取決於流量與轉化,變量太多。但聲音克隆的好壞,只需要壹個母語者壹聽即可判斷。正是這份“清晰的可評價性”,讓他們在定價、篩選客戶、疊代產品時極其高效,也更容易達成正循環。
更重要的是,語音AI的本質並不是壹個ToC的消費工具,而是壹個介於技術能力與文化資產之間的ToB服務——它的價值不在於“生成”,而在於“連接”:連接妳和妳不懂的語言,連接內容和新的觀眾,連接品牌與陌生市場。
這是最隱形、也最穩健的壹種全球化。
AI全球化,不壹定要“破圈”,也可以“入心”
在AI出海的熱浪中,有人選擇做工具平臺,有人選擇卷大模型能力,還有人選擇貼近終端用戶做體驗優化。但VMEG用聲音告訴我們:還有壹條更小的路,那就是讓每個人,在任何語言中,依然能用自己的聲音說話。
這是壹種新的全球化方式——它不是喊得更響,而是聽得更像自己。
也許未來的內容不是用字幕通全球,也不是用數字人吸引流量,而是用壹段聲音,悄無聲息地連接壹個遙遠的市場,讓他們說:“妳聽,他在說我們的話。”
這場靜悄悄的擴張,也許比妳想像的,更有力量。
訪談Q&A精選
Q1: 素動科技(VMEG)的核心業務是什麽?它主要解決了什麽問題?
宋開發:VMEG的核心業務是為音視頻內容提供AI翻譯和配音服務。它主要解決的是內容全球化過程中的語言障礙問題,但並非簡單地添加字幕或使用標準的AI播音腔,而是通過聲音克隆技術,用內容創作者或演員“本人”的聲音,生成不同語言的配音。這使得最終的作品能保留原聲的情感、語氣和特質,為海外觀眾提供更沈浸、更真實的觀看體驗。主要服務的客戶群體包括影視、動漫、短劇、教育、廣告和電商等領域。
Q2: 素動科技的聲音克隆技術有哪些具體優勢?它和市面上其他的AI配音有何不同?
宋開發: 其技術優勢主要體現在“高度擬人化”和“細節還原”上。
覆蓋全年齡段和性別: 不同於多數AI配音只能提供標準的成年男女聲,VMEG可以復刻包括老人、小孩在內的各種聲音。
情感和語氣還原: 技術能夠捕捉並還原哭泣、吶喊、甚至低聲耳語等復雜情緒和特殊說話方式,這對於影視和短劇等註重情感表達的內容至關重要。
技術細節處理: 他們會對聲音的波形、聲調、語速和節奏進行精細化處理,確保聲音的真實感。宋開發先生提到,他們的標準是做到“99.9分”,而不是“80分”,因為只有這樣才能贏得高要求客戶的認可。
Q3: 為什麽說素動科技找到這個細分市場帶有“碰運氣”的成分?
宋開發: 公司最早的業務方向是AI營銷視頻出海,這是壹個競爭激烈的領域,且效果很難量化。壹次偶然的機會,壹位福建做大理石生意的老板提出了壹個特殊需求:他不需要制作新的營銷視頻,而是希望用自己的聲音說阿拉伯語和印度語,以便在海外參展時拉近與當地客戶的距離。VMEG為他實現後,效果出奇地好。這個“天使客戶”的成功案例,讓他們意識到聲音克隆在內容本土化上的巨大潛力,從而自然而然地將業務重心轉移到了這個方向。
Q4: 素動科技的定價模式是怎樣的?客戶願意為此付費的關鍵原因是什麽?
宋開發:VMEG目前主要按照音視頻的“時長”來計費,以分鐘為單位。最初海外定價約為每分鐘3美金,後來根據合作深度調整至0.7到1美金不等。如果壹個視頻需要翻譯成多種語言,費用則按語言數量翻倍。客戶願意付費的核心原因是他們對內容質量有高要求,追求的是情感連接和藝術表達的真實性,而不僅僅是信息的傳達。例如,印度電影明星希望在不同方言的影片中依然使用自己的聲音,YouTube大V為了核心粉絲區的觀看體驗而選擇高質量配音,這些都是普通字幕或標準AI配音無法滿足的需求。
Q5: 在全球市場中,哪些國家或地區是素動科技的主要客戶來源?他們各自有什麽特點?
宋開發: 目前,歐洲是最大的市場,其中德國客戶最多。德國觀眾有強烈的觀看德語內容的習慣,因此當地媒體和MCN機構有大量將英語內容翻譯成德語配音的需求。其次是印度,特別是南印度,其影視產業發達,且存在多種方言,電影明星有強烈的跨方言配音需求。此外,日韓市場也在快速增長,日本的旅遊局、IP公司和動漫公司希望借助這項技術將內容推廣到全球。
Q6: 面對如此分散的全球客戶,素動科技是如何進行海外市場推廣和獲客的?
宋開發: 由於翻譯配音屬於專業需求,他們的推廣策略也更具針對性,而非追求泛娛樂化的“出圈”。主要方式包括:
搜尋引擎營銷: 通過谷歌進行SEO(搜尋引擎優化)和SEM(搜尋引擎營銷),精準觸達有主動搜索需求的用戶。
紅人與達人合作: 與海外YouTube等平臺上的內容解說類博主合作。這些博主本身就有多語言內容的需求,通過為他們提供優惠甚至免費的服務,換取他們的使用和推薦,實現“帶貨”效果。
品牌合作: 未來計劃與大型機構或知名IP進行合作,提升品牌影響力。
Q7: 在技術層面,除了聲音克隆,素動科技還解決了哪些傳統翻譯配音的難題?
宋開發: 壹個重要的技術挑戰是處理不同語言間的“信息密度”差異,並同步視頻時長。例如,中文信息密度高,幾個字就能表達復雜含義,而西班牙語則相對啰嗦。在將中文視頻翻譯成西班牙語時,既要保證在原有時長內說完所有內容,又要讓語速聽起來自然,不能過快或過慢。這就需要對翻譯後的語言在語速和節奏上進行智能調整,同時保持原說話人的聲音特征,這是壹個非常精細且復雜的技術活。
Q8: 除了影視、短劇等領域,素動科技還在探索哪些新的應用場景?
宋開發: 我們正在積極探索的壹個新方向是“歌曲翻譯”。世界上有很多音樂天賦極高但受困於小語種的歌手,他們的音樂很難被世界聽懂。VMEG希望通過AI技術,將這些小語種歌曲“翻唱”成英語、中文等主流語言,同時保留原唱的音色和演唱風格。這不僅能幫助優秀音樂人走向世界,也蘊含著巨大的商業潛力。
Q9: 對於同樣想利用AI技術出海的創業者,宋開發先生提出了哪兩條核心建議?
宋開發:
選擇壹個規模足夠大的市場: 創業要看市場的“天花板”(Upside)。他以全球音視頻內容時長為例,這是壹個高達上億分鐘的巨大市場,足以容納多家公司共同發展。創業者應選擇壹個有足夠想像空間的賽道。
建立清晰、可量化的產品評價標準: 妳的產品或服務的好壞,必須能被客戶簡單、清晰地判斷。像他們的配音,找個母語者壹聽便知優劣。如果評價標準模糊,最終只會陷入拼渠道、拼價格的紅海競爭,並且很難篩選出真正的“有效客戶”,導致創業過程非常焦灼。
Q10: 在與客戶的溝通中,他們發現客戶最關心的是“聲音”還是“唇形”的同步?
宋開發: 絕大多數客戶更關心“聲音”本身的還原度。唇形的同步雖然也有技術實現,但重要性排在聲音之後。客戶認為聲音是傳遞情感和建立連接的最核心要素,只要聲音足夠真實、自然,即使唇形不完全精準匹配,也是可以接受的。
新時空聲明: 本內容為新時空原創內容,復制、轉載或以其他任何方式使用本內容,須註明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠,但不保證數據絕對正確。本內容僅供參考,不構成任何投資建議,交易風險自擔。
