AI News: OpenAI lança novo benchmark para lidar com a factualidade da IA

Oi galera, prontos para mergulhar no mundo louco das notícias de cripto? Junte-se ao nosso canal do Telegram onde deciframos os mistérios da blockchain e rimos das mudanças de humor imprevisíveis do Bitcoin. É como uma novela, mas com mais drama descentralizado! Não fique de fora, venha com a gente agora e vamos aproveitar a montanha-russa das criptos juntos! 💰🎢

Junte-se ao Telegram


Como analista experiente com mais de duas décadas de experiência na indústria de tecnologia, devo admitir que a última mudança da OpenAI com SimpleQA é bastante intrigante. O foco na factualidade e na redução das alucinações é um passo muito necessário para restaurar a confiança nos modelos de linguagem de IA, que têm sido atormentados por problemas de informações incorretas ou enganosas.

A famosa empresa de IA OpenAI revelou recentemente SimpleQA, uma métrica para avaliar a precisão das respostas fornecidas por modelos de linguagem ao responder a consultas breves e baseadas em fatos. Essencialmente, esta ferramenta foi projetada para avaliar até que ponto esses modelos podem responder a perguntas que buscam fatos e representa outro esforço da OpenAI para reconstruir a confiança em suas principais ofertas de produtos.

SimpleQA supera modelos de fronteira

Os sistemas de IA muitas vezes lutam para garantir que suas respostas sejam baseadas em fatos precisos durante o processo de treinamento do modelo.

Nesta fase, estes modelos por vezes geram resultados incorretos ou respondem sem provas sólidas. Esse problema é comumente conhecido como “alucinação”. Como resultado, os usuários da Internet tendem a preferir modelos que fornecem respostas mais precisas e têm menos casos de alucinações.

A OpenAI optou por criar o teste SimpleQA, que avalia modelos de linguagem com base em sua precisão factual. Este objetivo é visto como desafiador porque determinar a factualidade pode ser difícil, conforme observado pela empresa. O design do SimpleQA concentra-se em perguntas breves e de apuração de fatos, restringindo assim o escopo do teste e tornando mais fácil medir a factualidade.

O grupo que trabalhou na criação do benchmark focou em alcançar um alto nível de precisão, variedade e experiência amigável para os pesquisadores. Ao contrário de soluções anteriores, como TriviaQA, que atingiu a saturação, o SimpleQA da OpenAI foi projetado especificamente para testar modelos de ponta como o GPT-4o, que atualmente pontua abaixo de 40%. Durante o desenvolvimento desta ferramenta de IA, a equipe garantiu que cada pergunta do conjunto de dados obedecesse a padrões específicos.

Para garantir respostas de alta qualidade, outra IA treinada por uma equipe diferente verificou aleatoriamente 1.000 perguntas de nosso conjunto de dados. Observamos que as respostas desta terceira IA estavam alinhadas com as originais em aproximadamente 94,4% dos casos, enquanto houve discordância em cerca de 5,6% dos casos.

Aumento da avaliação da OpenAI para US$ 157 bilhões

No início de outubro, o valor da empresa de IA ultrapassou os 157 mil milhões de dólares, após um investimento de 6,6 mil milhões de dólares de vários financiadores. Entre esses investidores estavam a Thrive Capital, que liderou a rodada de financiamento, a Microsoft Corporation e a potência da IA ​​NVIDIA. O rápido crescimento desta empresa sob a liderança de Sam Altman é impulsionado principalmente pela sua ambição de fortalecer a sua presença na investigação de ponta em IA.

Uma semana após a arrecadação de fundos bem-sucedida, a empresa anunciou seus planos de expansão, revelando a abertura de novas filiais nos EUA, França e Ásia, marcando mais um marco significativo em escala global.

Nossos escritórios serão estabelecidos em Nova York, Seattle, Paris, Bruxelas e Cingapura, juntando-se aos que já temos em São Francisco, Londres, Dublin e Tóquio. A mudança para introduzir o SimpleQA faz parte de uma estratégia agressiva de expansão de produtos, que foi motivada pelo aumento no valor de avaliação da OpenAI.

 

2024-10-30 23:38