A OpenAI lançou o GPT-5.5, novo modelo topo de linha que mira trabalho real no computador: código agêntico, pesquisa, planilhas, automação de ferramentas. Bate 82.7% em Terminal-Bench 2.0, 84.9% em GDPval e mantém a latência por token do GPT-5.4. Rolling out pros planos Plus, Pro, Business e Enterprise no ChatGPT e Codex. API sai em breve a US$ 5/US$ 30 por 1M tokens (input/output).
GPT-5.5 sem tax de latência é o ponto que importa pra produto. Se o benchmark de Terminal-Bench (82.7%) se sustentar fora do controle da OpenAI, Cursor, Codex e afins ganham combustível. Pro BR, o preço em USD pesa: rode o custo de token antes de plugar em produção.
A OpenAI anunciou em 23 de abril o GPT-5.5, descrito pela empresa como o modelo mais inteligente e intuitivo da casa. O foco declarado é bem direto: sair do chat bonitinho e virar ferramenta de trabalho real no computador, puxando tarefas inteiras em vez de responder passo a passo.
A promessa central é que você joga uma task bagunçada e multi-etapa, e o modelo planeja, usa ferramentas, checa o próprio trabalho, navega na ambiguidade e segue até terminar. Ganhos mais fortes em código agêntico, computer use, trabalho de conhecimento e pesquisa científica inicial.
Modelo maior normalmente serve mais devagar. A OpenAI diz que conseguiu manter a latência por token do GPT-5.4 em serving real, com inteligência em nível bem mais alto. Também usa significativamente menos tokens pra completar as mesmas tasks no Codex.
Essa parte importa mais do que o benchmark: 'mais inteligente sem ficar mais lento' é o que destrava adoção em produto. Gemini 3 Pro e Claude Opus 4.7 pagam pedágio de latência em tasks longas, e isso mata UX de agente.
A OpenAI publicou tabela comparativa com GPT-5.4, GPT-5.5 Pro, GPT-5.4 Pro, Claude Opus 4.7 e Gemini 3.1 Pro. Destaques:
No Artificial Analysis Coding Index, a OpenAI afirma entregar performance de ponta a metade do custo dos modelos frontier concorrentes.
No Codex, o modelo aguenta implementação, refactor, debug, teste e validação. Testadores iniciais citam três comportamentos concretos: segurar contexto em sistemas grandes, raciocinar sobre falhas ambíguas, e carregar mudanças pelo codebase.
Dan Shipper, founder e CEO da Every, chamou o GPT-5.5 de "o primeiro modelo de código que usei com clareza conceitual séria". Ele conta que tinha um bug pós-launch que só um dos seus melhores engenheiros resolveu reescrevendo parte do sistema. O GPT-5.4 não conseguiu chegar no mesmo rewrite. O GPT-5.5 conseguiu.
Pietro Schirano, CEO da MagicPath, relatou merge de uma branch com centenas de mudanças de frontend e refactor numa main que também tinha mudado muito: resolvido em uma passada, em cerca de 20 minutos.
Um engenheiro da NVIDIA com acesso antecipado disse: "perder o acesso ao GPT-5.5 parece que me amputaram um membro".
"GPT-5.5 é visivelmente mais inteligente e persistente que o GPT-5.4, com performance de código mais forte e uso de ferramenta mais confiável. Fica na task muito mais tempo sem parar cedo, o que importa pro trabalho longo e complexo que os users delegam ao Cursor." Michael Truell, co-founder e CEO do Cursor
No Codex, o GPT-5.5 gera documentos, planilhas e apresentações melhor que o GPT-5.4. Alpha testers citaram pesquisa operacional, modelagem em planilha e transformar input bagunçado de negócio em plano.
A OpenAI diz que mais de 85% da própria empresa usa Codex toda semana em engenharia, finance, comunicação, marketing, data science e PM (Product Manager). Casos internos citados:
No GeneBench (análise multi-etapa em genética e biologia quantitativa), o GPT-5.5 sobe pra 25.0% vs 19.0% do GPT-5.4. O Pro chega a 33.2%. No BixBench (bioinformática), 80.5%.
Derya Unutmaz, professor de imunologia e pesquisador no Jackson Laboratory for Genomic Medicine, usou o GPT-5.5 Pro pra analisar dataset de expressão gênica com 62 amostras e quase 28.000 genes, produzindo report que ele diz que levaria meses pro time dele.
Bartosz Naskręcki, professor assistente de matemática na Adam Mickiewicz University (Poznań, Polônia), construiu app de geometria algébrica num único prompt em 11 minutos, visualizando interseção de superfícies quadráticas e convertendo a curva em modelo de Weierstrass.
Uma versão interna do GPT-5.5 com harness customizado ajudou a descobrir uma nova prova sobre números de Ramsey, depois verificada em Lean.
Servir GPT-5.5 na latência do GPT-5.4 exigiu repensar inferência como sistema integrado. Foi co-designed, treinado e servido em sistemas NVIDIA GB200 e GB300 NVL72.
Um exemplo concreto: load balancing e partitioning. Antes, a OpenAI dividia requests num accelerator em número fixo de chunks. Com GPT-5.5, o Codex analisou semanas de padrão de tráfego em produção e escreveu algoritmos heurísticos customizados. Resultado: velocidade de geração de token subiu mais de 20%.
"Construído e servido em sistemas NVIDIA GB200 NVL72, o modelo permite que nossos times enviem features end-to-end a partir de prompts em linguagem natural, cortem tempo de debug de dias pra horas, e transformem semanas de experimentação em progresso durante a noite em codebases complexos." Justin Boitano, VP de Enterprise AI na NVIDIA
A OpenAI classifica as capacidades biológica/química e de cibersegurança do GPT-5.5 como High no Preparedness Framework (não atingiu Critical em cyber, mas é degrau acima do GPT-5.4).
Classificadores mais rígidos pra risco cyber entram com o modelo. A empresa avisa que alguns users vão achar chato no começo, até calibrar. Em paralelo, expandiu o programa Trusted Access for Cyber: defensores verificados (incluindo organizações que cuidam de infraestrutura crítica) podem pedir acesso a modelos cyber-permissivos como GPT-5.4-Cyber, com requisitos de segurança estritos.
Rolando pra Plus, Pro, Business e Enterprise no ChatGPT e Codex. GPT-5.5 Pro sai pros planos Pro, Business e Enterprise no ChatGPT.
No Codex, o modelo vem com janela de contexto de 400K e modo Fast (gera tokens 1.5x mais rápido por 2.5x o custo). API chega em breve:
Preço do pro é salgado: US$ 180/M output coloca ele no mesmo patamar dos tiers premium. Pra quem faz batch de análise científica ou legal, ainda compensa vs alugar especialista. Pra agente em produção com volume alto, fica de olho no token efficiency prometido antes de migrar do 5.4.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0