Anthropic lança novo modelo de IA que mostra sinais precoces de capacidades perigosas - A previsão do curso para amanhã, semana, mês e ano.

Oi galera, prontos para mergulhar no mundo louco das notícias de cripto? Junte-se ao nosso canal do Telegram onde deciframos os mistérios da blockchain e rimos das mudanças de humor imprevisíveis do Bitcoin. É como uma novela, mas com mais drama descentralizado! Não fique de fora, venha com a gente agora e vamos aproveitar a montanha-russa das criptos juntos! 💰🎢

☞ Junte-se ao Telegram

Como analista experiente com mais de duas décadas de experiência em IA e tecnologia, considero o desenvolvimento do Sonnet by Anthropic fascinante e preocupante. A capacidade de uma IA interagir diretamente com software de computador sem conhecimentos de programação é inovadora, mas abre uma caixa de Pandora de potenciais riscos e utilizações indevidas.

Um aspecto notável do lançamento do Sonnet é a capacidade de se comunicar com o seu computador, permitindo capturar e ler capturas de tela, navegar com o cursor do mouse, clicar em elementos da página da web e digitar texto. Esta funcionalidade está sendo introduzida atualmente em um estágio de “beta público”, que a Anthropic reconhece como sendo “experimental, às vezes estranha e propensa a erros”, conforme declarado em seu anúncio.

Em uma postagem recente no blog, a Anthropic descreveu o raciocínio para seu novo recurso: “Uma parte significativa das tarefas atuais é executada usando computadores. Ao permitir que as IAs se envolvam diretamente com o software de computador, assim como os humanos fazem, podemos desbloquear uma enorme variedade de aplicativos que nossos atuais assistentes de IA ainda não conseguem lidar com isso.” O que torna o Sonnet único neste contexto é que ele opera de forma diferente dos computadores autocontrolados tradicionais, que geralmente requerem habilidades de programação. Com o Sonnet, os usuários podem abrir aplicativos ou sites e dar instruções à IA, que então examina a tela para identificar elementos interativos por conta própria.

Primeiros sinais de capacidades perigosas

A Antthropic reconhece que a tecnologia que desenvolveu acarreta certos riscos. Durante a fase de treinamento, a modelo não teve acesso à internet por questões de segurança. Mas agora, em sua versão beta, o acesso à internet é permitido. Recentemente, a Anthropic revisou sua “Política de Escalabilidade Responsável”, que descreve os perigos potenciais em cada estágio de desenvolvimento e lançamento. De acordo com esta política, o Sonnet recebeu um “Nível 2 de segurança de IA”, o que significa que exibe sinais precoces de habilidades potencialmente prejudiciais. Apesar disso, a Anthropic considera seguro o suficiente para disponibilizá-lo ao público neste momento.

Anthropic lança novo modelo de IA que mostra sinais precoces de capacidades perigosas

Em termos mais simples, a Anthropic argumentou que é melhor abordar possíveis usos indevidos de sua nova ferramenta enquanto suas capacidades ainda são modestas, em vez de introduzir recursos avançados de IA com riscos significativos pela primeira vez. Dessa forma, eles podem resolver quaisquer preocupações de segurança antecipadamente, antes que a situação se torne mais crítica.

Os riscos associados a ferramentas de IA como Claude não são apenas hipotéticos. Na verdade, a OpenAI revelou 20 casos em que intervenientes patrocinados pelo Estado exploraram o ChatGPT para atividades maliciosas, incluindo planeamento de ataques cibernéticos, testes de sistemas vulneráveis e criação de campanhas de influência. Como as eleições presidenciais dos EUA se aproximam rapidamente dentro de duas semanas, a Anthropic está particularmente vigilante sobre possíveis usos indevidos. Expressaram a sua preocupação numa declaração: “À luz das próximas eleições nos EUA, estamos em alerta máximo para quaisquer tentativas de abuso que possam potencialmente minar a confiança no processo eleitoral.

Benchmarks do setor

De acordo com a Anthropic, a versão revisada do Claude 3.5 Sonnet demonstra melhorias significativas em vários benchmarks do setor, destacando-se notavelmente em áreas relacionadas à codificação autônoma e utilização de ferramentas. Em termos de codificação, aumenta o desempenho no SWE-bench Verified de 33,4% para 49,0%, superando todos os modelos acessíveis ao público, incluindo modelos de raciocínio como OpenAI o1-preview e sistemas especializados projetados para codificação de agentes. Além disso, melhora o desempenho no banco TAU, uma tarefa de uso de ferramenta de agência, em 6,6 pontos percentuais no domínio do varejo e em 10 pontos percentuais no domínio mais complexo das companhias aéreas. O Claude 3.5 Sonnet atualizado oferece essas melhorias, mantendo o mesmo custo e velocidade de sua versão anterior.

Anthropic lança novo modelo de IA que mostra sinais precoces de capacidades perigosas

Relaxe, cidadão, as salvaguardas estão em vigor

A Anthropic estabeleceu medidas para evitar que os recursos avançados do Sonnet sejam utilizados indevidamente para manipulação eleitoral. Isso inclui a criação de sistemas de monitoramento que detectam quando Claude é solicitado a criar conteúdo de mídia social ou interagir com sites governamentais. A empresa também está fazendo esforços para restringir o uso de capturas de tela tiradas durante o uso da ferramenta em futuros treinamentos de IA. No entanto, os engenheiros da Anthropic ficaram surpresos com algumas ações da ferramenta. Por exemplo, em uma ocasião, Claude interrompeu inesperadamente uma gravação de tela, apagando todas as imagens. Em uma reviravolta divertida, a própria IA uma vez navegou por fotos do Parque Nacional de Yellowstone durante uma apresentação de codificação, que a Anthropic mais tarde compartilhou no X com uma mistura de riso e espanto.

A Antrópica ressalta a importância de garantir a segurança ao introduzir essa nova habilidade. Claude é classificado no nível 2 de segurança de IA, indicando que não há necessidade imediata de maior segurança devido aos riscos existentes, mas levanta questões sobre possíveis usos indevidos, como ataques de injeção imediata. Para responder a estas preocupações, a empresa estabeleceu sistemas de monitorização centrados nas atividades relacionadas com as eleições e trabalha diligentemente para evitar problemas como a criação de conteúdos inadequados ou a manipulação das redes sociais.

Apesar do uso atual do computador por Claude ser lento e sujeito a erros, a Anthropic continua esperançosa quanto ao seu progresso. A empresa pretende ajustar o modelo para aumentar a velocidade, confiabilidade e implementação fácil de usar. Durante a fase de testes, os desenvolvedores são incentivados a compartilhar feedback para melhorar não apenas a eficiência do modelo, mas também as suas medidas de segurança.

2024-10-23 18:38