A postagem no blog do OpenAI afirma que o GPT-5 supera seus modelos anteriores em vários benchmarks de codificação, incluindo o SWE-banch verificado (pontuando 74,9 %), o SWE-Lancer (GPT-5 com pontuação de 55 %) e o codificado de poliglot de AIDER (88 %), que testam a capacidade de Bugs, a folha completa de bugs.
Durante o briefing da imprensa na quarta-feira, o líder pós-treinamento do OpenAI, Yann Dubois, levou o GPT-5 a “criar um aplicativo web bonito e altamente interativo para meu parceiro, um falante de inglês, para aprender francês”. Ele encarregou a IA de incluir recursos como o Daily Progress, uma variedade de atividades como flashcards e testes, e observou que ele queria o aplicativo envolvido em um “tema altamente envolvente”. Depois de mais ou menos um minuto, o aplicativo gerado pela IA apareceu. Embora tenha sido apenas uma demonstração nos trilhos, o resultado foi um site elegante que entregava exatamente o que Dubois pediu.
“É uma ótima colaboradora de codificação e também se destaca em tarefas Agentic”, diz Michelle Pokrass, uma vantagem pós-treinamento. “Ele executa cadeias longas e chamadas de ferramentas de maneira eficaz (o que significa que entende melhor quando e como usar funções como navegadores da Web ou APIs externas), segue instruções detalhadas e fornece explicações iniciais de suas ações”.
O Openai também diz em seu post no blog que o GPT-5 é “nosso melhor modelo ainda para perguntas relacionadas à saúde”. Em três benchmarks LLM relacionados à saúde do OpenAi-Healthbench, Healthbench Hard e Healthbench Consensus-o cartão do sistema (Um documento que descreve as capacidades técnicas do produto e outras descobertas de pesquisa) afirma que o GPT-5 supera os modelos anteriores “por uma margem substancial”. A versão pensante do GPT-5 obteve 25,5 % no Healthbench Hard, acima da pontuação de 31,6 % da O3. Essas pontuações são validadas por dois ou mais médicos, de acordo com o cartão do sistema.
O modelo também supostamente alucina menos, de acordo com Pokrass, uma questão comum para a IA, onde fornece informações falsas. O líder de pesquisa de segurança da Openai, Alex Beutel, acrescenta que “diminuiu significativamente as taxas de engano no GPT-5”.
“Tomamos medidas para reduzir a propensão do GPT-5 a enganar, enganar ou invadir problemas, embora nossas mitigações não sejam perfeitas e mais pesquisas sejam necessárias”, diz o cartão do sistema. “Em particular, treinamos o modelo para falhar graciosamente quando colocados com tarefas que ele não pode resolver”.
O cartão do sistema da empresa diz que, após testar os modelos GPT-5 sem acesso à navegação na Web, os pesquisadores encontraram sua taxa de alucinação (que eles definiram como “porcentagem de reivindicações factuais que contêm erros menores ou maiores”) 26 % menos comuns que o modelo GPT-4O. O GPT-5 com pensamento tem uma taxa de alucinação reduzida de 65 % em comparação com O3.
Para avisos que podem ser duplos (potencialmente prejudiciais ou benignos), Beutel diz que o GPT-5 usa “conclusões seguras”, o que leva o modelo a “dar uma resposta o mais útil possível, mas dentro das restrições de permanecer seguro”. O Openai fez mais de 5.000 horas de equipes vermelhas, de acordo com a Beutel, e testando com organizações externas para garantir que o sistema fosse robusto.
O Openai diz que agora possui quase 700 milhões de usuários ativos semanais de ChatGPT, 5 milhões de usuários de negócios pagantes e 4 milhões de desenvolvedores utilizando a API.
“As vibrações deste modelo são realmente boas, e acho que as pessoas realmente sentirão isso”, diz o chefe do Chatgpt Nick Turley. “Especialmente pessoas comuns que não passam o tempo pensando em modelos”.




