Amazon entra na corrida de voz da IA ​​em tempo real com Nova Sonic, um modelo de voz unificado que sente a emoção

Amazon entra na corrida de voz da IA ​​em tempo real com Nova Sonic, um modelo de voz unificado que sente a emoção

O CEO da Amazon, Andy Jassy, ​​provocou o anúncio de hoje quando revelou a iniciativa Nova da Amazon em dezembro na AWS Re: Invent em Las Vegas. (Geekwire Photo / Todd Bishop)

O que acontece quando a IA sente a frustração ou a alegria em sua voz?

Um novo modelo de IA de fala a fala da Amazon, chamado Nova Sonic, unifica o reconhecimento e a geração de fala para oferecer mais interações naturais de voz-parte do esforço mais amplo da gigante da tecnologia de Seattle para desenvolver inteligência humana em concorrência com o Google, Openai e outros.

Entre outros avanços, a Amazon diz que Nova Sonic pega o tom de voz, adaptando -se ao estilo e às emoções dos usuários. Um cliente zangado em uma chamada de suporte pode ouvir uma voz calma e constante em troca, enquanto alguém que parece empolgado pode obter uma resposta mais otimista.

“Penso na inteligência como inseparável do contexto”, disse Rohit Prasad, vice -presidente sênior de inteligência geral artificial da Amazon, que lidera uma equipe central que trabalha na tecnologia de IA mais avançada da empresa.

“Se você estiver empolgado com o Havaí, ficará empolgado com isso”, explicou ele como exemplo. “Se você não estiver, isso sugerirá um destino separado.”

A Nova Sonic estará disponível para desenvolvedores de terceiros através do serviço de rock da Amazon. A Amazon já está usando componentes do modelo internamente, em produtos, incluindo seu recém -lançado Assistente de Alexa+ Voice.

Ao contrário dos sistemas de voz tradicionais que costuram modelos separados para reconhecimento de fala, processamento de idiomas e texto em fala, o Nova Sonic combina todos os três em uma única arquitetura, de acordo com a empresa.

A Amazon diz que essa integração permite que o modelo preserve o contexto completo de uma conversa – incluindo entonação, ritmo e intenção – fazendo com que as interações pareçam mais conversação e responsiva.

Também pode agir no meio de uma conversa, como retirar as opções de voo ou verificar uma conta, sem quebrar o fluxo da interação.

A Amazon está disponibilizando a Nova Sonic por meio de uma nova API de streaming criada para aplicativos de voz em tempo real. Atualmente, suporta inglês com algumas vozes e sotaques diferentes. A Amazon diz que está trabalhando no suporte para mais idiomas.

Rohit Prasad, vice -presidente sênior de AGI da Amazon. (Foto da Amazon)

A Nova Sonic entra em um campo crescente de modelos de voz e IA multimodal, enquanto as empresas correm para construir mais assistentes digitais do tipo humano. O OpenAI lançou recentemente o GPT-4O, seu próprio modelo de fala em tempo real, enquanto o Google adicionou recursos de voz conversacional ao seu assistente de Gêmeos.

Com base em seus testes, a Amazon diz que a Nova Sonic supera esses rivais em velocidade e custo, com menor latência e melhores preços.

Por exemplo, a Amazon diz que Nova Sonic responde em pouco mais de um segundo em média-mais rápido que o GPT-4O do Openai e o Gemini Flash 2.0 do Google em testes executados pela análise artificial da empresa de pesquisa. A empresa diz que a Nova Sonic é quase 80% mais barata para usar que o GPT-4O para interações de voz em tempo real.

Prasad, anteriormente cientista do Alexa, agora supervisiona o grupo AGI da Amazon, reportando -se ao CEO da Amazon, Andy Jassy.

O objetivo de longo prazo, disse Prasad em uma entrevista, é criar modelos unificados que possam lidar com qualquer tipo de entrada e responder da maneira mais natural-entregando o “geral” na inteligência geral artificial.

“Na verdade, acho que você está fundindo os poderes do humano e da máquina”, disse Prasad sobre as iniciativas da AGI. “É por isso que isso é tão importante.”

Ele chamou Nova Sonic de “um grande passo” nessa direção.

As empresas que testam Nova Sonic incluem aspp, para chamadas de atendimento ao cliente; Educação primeiro, aplicando -o às ferramentas de aprendizado de idiomas; e o desempenho das estatísticas, que o está usando para fornecer insights esportivos em tempo real através da voz.

A Amazon diz que a Nova Sonic foi projetada para se integrar aos sistemas da empresa para acessar informações em tempo real, como preços, disponibilidade ou cronogramas. O modelo também pode ser usado para realizar tarefas no meio da conversão, incluindo fazer reservas ou oferecer opções alternativas.

Nova Sonic é a mais recente adição aos modelos de AI da Amazon, introduzida por Jassy na AWS Re: Invent em dezembro, que inclui IA para gerar e entender texto, imagens e vídeo. Ele segue o recente lançamento da Amazon de uma prévia de pesquisa da Nova Lei, para a construção de agentes de IA baseados na Web.



Fonte ==>

Leia Também

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *