一铎实验室发布具有情感和非语言表达能力的最新语音合成模型”一铎 v3 Alpha”

Photo of author

By Global Team

ElevenLabs 推出了最新的文本转语音 (TTS) 模型 “Eleven v3(alpha)”。这次发布的模型超越了传统的语音合成技术,实现了包括情感表达、说话者转换和非语言声音的高级表现。

通过全面的架构重组,Eleven v3 提升了语音生成技术的表现力。用户可以在文本中插入“耳语”、“笑声”、“掌声”等非语言标签,句子中间的情感变化和语调转变可以自然实现。此外,速度控制、情感的细节调整、角色之间的转换也能通过一次录音完成。

支持的语言从原有的32种扩大到超过70种,覆盖全球约90%的人口。在需要低延迟的实时对话式AI、呼叫中心等场景中,建议使用现有的v2.5模型,v3的流媒体功能将在未来提供。

TTS 모델 ‘Eleven v3 (alpha)’ 출시 (사진 = 일레븐랩스)
TTS 모델 ‘Eleven v3 (alpha)’ 출시 (사진 = 일레븐랩스)

主要用户包括内容创作者、互动媒体制作者、和有声书制作者,他们可以通过细致的提示调整所需的情感和表达。像真正的演员一样表演的语音生成不仅仅是简单的朗读,而是作为创作工具扩展了AI的领域。

韩语的TTS功能也有了很大改善,不仅能够处理情感表达,还可以处理“方言”或“体育转播”等特殊风格,从公共机构的信息传达到创作者内容的应用提高了实用性。

Eleven v3 다이얼로그(Dialogue) (사진 = 일레븐랩스)
Eleven v3 다이얼로그(Dialogue) (사진 = 일레븐랩스)

ElevenLabs 的 CEO 马蒂·斯坦尼斯泽夫斯基(Mati Staniszewski)表示:“v3是能够理解和控制情感、表达及非语言因素的最佳TTS模型”,并补充道:“这次发布是由联合创始人皮奥特·栋布科夫斯基(Piotr Dąbkowski)和团队的领导力所带来的成就。”

Leave a Comment