OpenAI aprimora modelos de voz com raciocínio, transcrição e tradução em mais de 70 idiomas

OpenAI aprimora modelos de voz com raciocínio, transcrição e tradução em mais de 70 idiomas

Criados para enfrentar os desafios das interações de voz com chatbots, os três novos modelos da OpenAI estão agora acessíveis para desenvolvedores na Realtime API.

A OpenAI lançou três novos modelos de áudio que foram projetados para oferecer interações de voz mais naturais, alongadas com respostas mais inteligentes e a capacidade de atuar em tempo real.

Para a empresa, liderada por Sam Altman, a voz está se tornando uma das metodologias mais intuitivas para interagir com softwares. Porém, a criação de aplicações que utilizam esse tipo de interação requer mais do que respostas rápidas ou uma voz convincente.

Mantenha-se atualizado sobre as novidades do mundo tecnológico e acompanhe tudo em tek.sapo.pt

Conforme indicado pela empresa, os assistentes de voz necessitam de entender a intenção dos usuários, manter o contexto da conversa, adaptar-se quando as solicitações mudam, utilizar recursos durante as interações e responder de maneira adequada ao momento presente.

Estes novos modelos foram concebidos para solucionar tais desafios, superando as interações tradicionais do tipo pergunta-resposta, afirma a empresa.

O GPT-Realtime-2 se destaca como o primeiro modelo de voz da OpenAI com habilidades de raciocínio comparáveis ao GPT-5, demonstrando capacidade de gerenciar solicitações mais complexas e manter um fluxo de conversa natural.

Este modelo é habilitado a executar diversas tarefas simultaneamente, além de descrever o que está fazendo, utilizando expressões que ajudam os usuários a perceber que o sistema está processando o pedido.

Com um contexto ampliado (128 mil tokens), o GPT-Realtime-2 também possibilita sessões mais extensas e fluxos de tarefas mais intricados, destaca a OpenAI.

Por outro lado, o GPT-Realtime-Translate é um modelo projetado para traduzir em tempo real o que está sendo dito, em mais de 70 idiomas, para 13 idiomas diferentes, acompanhando o ritmo do falante, conforme reportado pela OpenAI.

A esses dois modelos junta-se o GPT-Realtime-Whisper, que se concentra na transcrição contínua e na capacidade de converter o que alguém diz em tempo real.

Os três modelos estão agora acessíveis para desenvolvedores na Realtime API, com preços a partir de 0,017 dólares por minuto para o GPT-Realtime-Whisper; 0,034 dólares para o GPT-Realtime-Translate; e 32 dólares por um milhão de tokens de entrada de áudio para o GPT-Realtime-2.

Inscreva-se na newsletter do TEK Notícias e receba diariamente as principais notícias de tecnologia diretamente em seu e-mail.

Posts Semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *