OpenAI Vs Google: Gemini Live é lançado para rivalizar com o modo de voz ChatGPT

Oi galera, prontos para mergulhar no mundo louco das notícias de cripto? Junte-se ao nosso canal do Telegram onde deciframos os mistérios da blockchain e rimos das mudanças de humor imprevisíveis do Bitcoin. É como uma novela, mas com mais drama descentralizado! Não fique de fora, venha com a gente agora e vamos aproveitar a montanha-russa das criptos juntos! 💰🎢

Junte-se ao Telegram


Como um investidor experiente em criptografia com um olhar atento aos avanços tecnológicos, devo admitir que a batalha contínua entre a OpenAI e o Google me intrigou. O recente lançamento do Gemini Live do Google é, sem dúvida, um desenvolvimento emocionante, especialmente considerando minha preferência pessoal por interações naturais e contínuas com assistentes de IA.

No evento Made by Google de 2024, o Google revelou um recurso de bate-papo por voz chamado Gemini Live para seu assistente de IA, Gemini. Esta nova adição visa competir com o mais recente modo de voz avançado da OpenAI para ChatGPT. Acessível apenas para usuários premium, o Gemini Live foi projetado para facilitar as conversas de uma forma mais natural e envolvente.

OpenAI x Google: Gemini Live to Rival ChatGPT Voice Mode

Na plataforma de discussão X, a empresa revelou seu novo produto, Gemini Live, com o objetivo de competir com o mais recente recurso de voz da OpenAI no Modo Avançado do ChatGPT.

No evento de 2024, o novo recurso foi revelado para usuários avançados do Gemini. Esse recurso foi projetado para tornar as interações com IA mais contínuas e menos estruturadas, permitindo que os usuários façam uma pausa, mudem de assunto ou continuem a discussão sempre que desejarem, como em uma conversa telefônica.

Conheça Gêmeos ao vivo: uma nova maneira de ter conversas mais naturais com Gêmeos.

Brainstorm de ideias
Interrompa para fazer perguntas
Pause um bate-papo e volte a ele

Agora disponível em inglês para assinantes do Gemini Advanced em telefones @Android →…

— Google DeepMind (@GoogleDeepMind) 13 de agosto de 2024

No mais recente mecanismo de fala do Google, uma característica de destaque é a capacidade de gerar diálogos contínuos, com nuances emocionais e realistas em vários turnos. Existem dez vozes disponíveis, cada uma com um som natural, e a IA tem a capacidade de imitar a voz do usuário em tempo real. Esse recurso de viva-voz permite conversas ininterruptas, mesmo quando o telefone está em segundo plano ou bloqueado, permitindo que os usuários realizem multitarefas sem interromper o bate-papo.

Mova-se para aprimorar a interação com IA

Como resultado, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash do assistente de IA podem lidar com discussões extensas e complexas devido à sua janela de contexto maior em comparação com outros modelos de IA generativa. Este recurso permite que o Gemini Live mantenha conversas mais longas e gerencie informações de forma mais eficaz.

Além do controle de voz, foi confirmado que a funcionalidade de múltiplas entradas, apresentada pela primeira vez no Google I/O 2024, será incorporada ao Gemini Live até o final do ano. Esse aprimoramento permite que a IA compreenda e responda a sinais visuais, como imagens e vídeos, tornando-a mais adaptável. Atualmente, esse recurso está disponível apenas em inglês em dispositivos Android, mas em breve serão adicionados idiomas adicionais e compatibilidade com iOS.

À medida que a empresa revela esse novo recurso, eles também planejam lançar mais recursos e conexões com seus serviços em um futuro próximo. Nas próximas semanas, o Gemini deverá oferecer funcionalidades expandidas para aplicativos do Google, como Calendário, Keep, Tarefas e YouTube Music. Essas melhorias permitirão que os usuários executem tarefas como criar playlists, definir lembretes e organizar suas agendas com mais facilidade usando comandos de voz.

Nos próximos dias, os usuários do Android poderão antecipar a ativação do Gemini não apenas no próprio aplicativo, mas também por meio do botão liga / desliga ou comandos de voz. Esta atualização permitirá uma interação perfeita entre os usuários e o Gemini em outros aplicativos, onde eles podem fazer perguntas ou solicitar conteúdo como imagens que se integram facilmente ao seu trabalho.

Desafios OpenAI com modo de voz avançado

Durante a competição entre OpenAI e Google, o modo de voz avançado do Google para ChatGPT encontrou problemas durante sua fase inicial e restrita de testes. Este recurso inovador, projetado para aprimorar a experiência de bate-papo imitando conversas mais realistas, foi recebido com críticas, pois pode, involuntariamente, tornar os usuários excessivamente dependentes da IA ​​devido às suas interações de voz realistas.

Como resultado, a OpenAI levantou uma preocupação sobre um potencial desenvolvimento futuro: o estabelecimento de conexões sociais entre os utilizadores e a IA, o que poderia ter impactos negativos nas interações humanas.

Como colaborador de pesquisa que trabalha junto com os criadores originais, tenho o prazer de anunciar o lançamento de uma versão atualizada do SWE-bench. Esta nova iteração foi projetada para fornecer uma avaliação mais confiável dos recursos do modelo de inteligência artificial (IA) ao enfrentar desafios de software da vida real.

— OpenAI (@OpenAI) 13 de agosto de 2024

Além disso, a empresa tem trabalhado para melhorar as capacidades de desenvolvimento de software dos seus sistemas de IA. Para enfrentar estes desafios, a organização tornou público recentemente um subconjunto cuidadosamente avaliado do benchmark SWE, que mede com mais precisão a capacidade de um modelo de IA para resolver problemas de software do mundo real. Esta ação faz parte dos esforços contínuos para garantir que os avanços na IA sejam seguros e práticos para o uso diário.

2024-08-13 22:28