一铎实验室发布具有情感和非语言表达能力的最新语音合成模型”一铎 v3 Alpha”

2025/06/13

ElevenLabs 推出了最新的文本转语音 (TTS) 模型 “Eleven v3(alpha)”。这次发布的模型超越了传统的语音合成技术，实现了包括情感表达、说话者转换和非语言声音的高级表现。

通过全面的架构重组，Eleven v3 提升了语音生成技术的表现力。用户可以在文本中插入“耳语”、“笑声”、“掌声”等非语言标签，句子中间的情感变化和语调转变可以自然实现。此外，速度控制、情感的细节调整、角色之间的转换也能通过一次录音完成。

支持的语言从原有的32种扩大到超过70种，覆盖全球约90%的人口。在需要低延迟的实时对话式AI、呼叫中心等场景中，建议使用现有的v2.5模型，v3的流媒体功能将在未来提供。

TTS 모델 ‘Eleven v3 (alpha)’ 출시 (사진 = 일레븐랩스)

主要用户包括内容创作者、互动媒体制作者、和有声书制作者，他们可以通过细致的提示调整所需的情感和表达。像真正的演员一样表演的语音生成不仅仅是简单的朗读，而是作为创作工具扩展了AI的领域。

韩语的TTS功能也有了很大改善，不仅能够处理情感表达，还可以处理“方言”或“体育转播”等特殊风格，从公共机构的信息传达到创作者内容的应用提高了实用性。

Eleven v3 다이얼로그(Dialogue) (사진 = 일레븐랩스)

ElevenLabs 的 CEO 马蒂·斯坦尼斯泽夫斯基（Mati Staniszewski）表示：“v3是能够理解和控制情感、表达及非语言因素的最佳TTS模型”，并补充道：“这次发布是由联合创始人皮奥特·栋布科夫斯基（Piotr Dąbkowski）和团队的领导力所带来的成就。”

【ElevenLabs】 AI改变说话方式 …声音演员”让受众体验情感

「木材友好城市」及木结构建筑示范项目全面开展

Leave a Comment 응답 취소