O que acontece quando a IA sente a frustração ou a alegria em sua voz?
Um novo modelo de IA de fala a fala da Amazon, chamado Nova Sonic, unifica o reconhecimento e a geração de fala para oferecer mais interações naturais de voz-parte do esforço mais amplo da gigante da tecnologia de Seattle para desenvolver inteligência humana em concorrência com o Google, Openai e outros.
Entre outros avanços, a Amazon diz que Nova Sonic pega o tom de voz, adaptando -se ao estilo e às emoções dos usuários. Um cliente zangado em uma chamada de suporte pode ouvir uma voz calma e constante em troca, enquanto alguém que parece empolgado pode obter uma resposta mais otimista.
“Penso na inteligência como inseparável do contexto”, disse Rohit Prasad, vice -presidente sênior de inteligência geral artificial da Amazon, que lidera uma equipe central que trabalha na tecnologia de IA mais avançada da empresa.
“Se você estiver empolgado com o Havaí, ficará empolgado com isso”, explicou ele como exemplo. “Se você não estiver, isso sugerirá um destino separado.”
A Nova Sonic estará disponível para desenvolvedores de terceiros através do serviço de rock da Amazon. A Amazon já está usando componentes do modelo internamente, em produtos, incluindo seu recém -lançado Assistente de Alexa+ Voice.
Ao contrário dos sistemas de voz tradicionais que costuram modelos separados para reconhecimento de fala, processamento de idiomas e texto em fala, o Nova Sonic combina todos os três em uma única arquitetura, de acordo com a empresa.
A Amazon diz que essa integração permite que o modelo preserve o contexto completo de uma conversa – incluindo entonação, ritmo e intenção – fazendo com que as interações pareçam mais conversação e responsiva.
Também pode agir no meio de uma conversa, como retirar as opções de voo ou verificar uma conta, sem quebrar o fluxo da interação.
A Amazon está disponibilizando a Nova Sonic por meio de uma nova API de streaming criada para aplicativos de voz em tempo real. Atualmente, suporta inglês com algumas vozes e sotaques diferentes. A Amazon diz que está trabalhando no suporte para mais idiomas.

A Nova Sonic entra em um campo crescente de modelos de voz e IA multimodal, enquanto as empresas correm para construir mais assistentes digitais do tipo humano. O OpenAI lançou recentemente o GPT-4O, seu próprio modelo de fala em tempo real, enquanto o Google adicionou recursos de voz conversacional ao seu assistente de Gêmeos.
Com base em seus testes, a Amazon diz que a Nova Sonic supera esses rivais em velocidade e custo, com menor latência e melhores preços.
Por exemplo, a Amazon diz que Nova Sonic responde em pouco mais de um segundo em média-mais rápido que o GPT-4O do Openai e o Gemini Flash 2.0 do Google em testes executados pela análise artificial da empresa de pesquisa. A empresa diz que a Nova Sonic é quase 80% mais barata para usar que o GPT-4O para interações de voz em tempo real.
Prasad, anteriormente cientista do Alexa, agora supervisiona o grupo AGI da Amazon, reportando -se ao CEO da Amazon, Andy Jassy.
O objetivo de longo prazo, disse Prasad em uma entrevista, é criar modelos unificados que possam lidar com qualquer tipo de entrada e responder da maneira mais natural-entregando o “geral” na inteligência geral artificial.
“Na verdade, acho que você está fundindo os poderes do humano e da máquina”, disse Prasad sobre as iniciativas da AGI. “É por isso que isso é tão importante.”
Ele chamou Nova Sonic de “um grande passo” nessa direção.
As empresas que testam Nova Sonic incluem aspp, para chamadas de atendimento ao cliente; Educação primeiro, aplicando -o às ferramentas de aprendizado de idiomas; e o desempenho das estatísticas, que o está usando para fornecer insights esportivos em tempo real através da voz.
A Amazon diz que a Nova Sonic foi projetada para se integrar aos sistemas da empresa para acessar informações em tempo real, como preços, disponibilidade ou cronogramas. O modelo também pode ser usado para realizar tarefas no meio da conversão, incluindo fazer reservas ou oferecer opções alternativas.
Nova Sonic é a mais recente adição aos modelos de AI da Amazon, introduzida por Jassy na AWS Re: Invent em dezembro, que inclui IA para gerar e entender texto, imagens e vídeo. Ele segue o recente lançamento da Amazon de uma prévia de pesquisa da Nova Lei, para a construção de agentes de IA baseados na Web.