语音AI初创公司ElevenLabs推出了最新对话式人工智能系统“Conversational AI 2.0”,提出了在语音和文本之间自由转换的AI对话新标准。此次升级不仅仅是简单的功能改良,而是专注于实现像真人一样自然地听和说的AI。

现有的语音AI在识别用户的话语并做出回应时常常出现不自然的静止或中断。然而,此系统能够实时分析用户的犹豫、中途停顿及后续声音,调整反应时机。例如,听到“嗯……稍等…”这样的语句时,AI会将其识别为“思考中”的信号,而不是简单的沉默并等待。因此,对话的流畅度和自然度提高了。
“Conversational AI 2.0”支持语音和文字的自由转换“多模态”功能。用户从对话突然切换到打字,或反之亦然,AI也能自然衔接不中断。在背景噪音存在或需要精确输入号码或地址的情况下尤为有用。
除此之外,还装载了自动语言检测功能。用户从英语开始说话,中途切换到日语或西班牙语时,AI能够实时识别并用相应语言继续回答。这对面向多国客户的企业尤具吸引力。尤其在客户服务、呼叫中心和营销等多个领域的应用令人期待。
此外,还增加了与外部信息对接的“RAG(检索增强生成)”功能。AI可以连接到外部知识数据,生成包含最新信息的回答。例如,在医疗领域可以提供最新治疗指南,在客户支持服务中可以实时提供当前政策或产品信息。同时,为了能够立即应用在企业环境中,显著提高了安全性和操作可靠性。包括符合HIPAA(美国健康信息保护法)、欧盟地区数据存储选项及增强的系统稳定性。特别是支持同时向多个客户发送语音消息的“大量发送”功能,可有效应用于客户通知或调查。
ElevenLabs此次更新不仅是技术进步,更表明AI已达到理解与人对话时应具备的“礼貌”和“上下文”的阶段。
当AI能够理解听、停、回应的基本沟通流程时,企业领域AI应用的门槛将大幅降低。在语音基础客户应对、多语言支持、实时信息提供等多个行业中,AI协作将更加自然。