Amazon推出了Nova Sonic，一种新的基础模型，它可以理解语音输入并生成类似人类的语音输出。

发布者：admin发表于：388天前阅读数：244评论:0

亚马逊在开发基于语音的技术以赋能对话式人工智能应用方面一直处于前沿，已有十多年的历史。从打造世界上最好的个人人工智能助手Alexa，到开发AWS服务如Lex、Polly和Connect，亚马逊一直在不断努力。但是，要使语音AI为顾客创造更多的实际价值，就必须考虑到人类对话的细微差别和复杂性。在对话中，词语虽然有意义，但如果没有赋予其深度的声学背景，仅靠词语本身可能显得平淡无奇。说话的方式同样重要，甚至比说了什么更重要。直到如今，用AI正确处理这一点一直是个挑战。

今天，亚马逊宣布推出Amazon Nova Sonic，这是一个新的基础模型，它将语音理解和语音生成统一到一个模型中，以实现人工智能应用中更类人的语音对话。通过Amazon Bedrock的新API提供，该模型简化了语音应用的开发，如客户服务中心自动化和各行业（包括旅游、教育、医疗保健、娱乐等）的AI代理。

一个能捕捉语调、风格和节奏的语音系统

构建启用语音的应用的传统方法涉及多个模型的复杂协调，例如将语音转换为文本的语音识别、理解和生成响应的大型语言模型（LLMs），以及将文本转换回音频的文本转语音技术。这种分散的方法不仅增加了开发的复杂性，而且未能保留对自然对话至关重要的关键声学背景和细微差别，如语调、韵律和说话风格。
Nova Sonic采取了一种新的方法来解决这些挑战。它没有使用不同的模型，而是将理解和生成能力统一到一个模型中。这种统一使得模型能够根据声学背景（例如，语调、风格）和口语输入调整生成的语音响应，从而实现更自然的对话。Nova Sonic甚至理解人类对话的细微差别，包括说话者自然的停顿和犹豫，等待合适的时机发言，并优雅地处理打断。

它还为用户的语音生成文本记录，使开发者能够使用该文本调用特定的工具和API来构建启用语音的AI代理，例如这个能够通过检索最新航班信息来预订航班的AI驱动的旅行代理示例。这些功能加上其极快的推理速度，使得由Nova Sonic驱动的语音应用更加自然和有用。

随着Nova Sonic的推出，亚马逊继续通过最先进的基础模型创新，为每一位亚马逊客户提供现实世界的价值。