MODELOS · OPENAI · 23 ABR 2026

OpenAI lança GPT-5.5: modelo mais inteligente, mesma latência do GPT-5.4 e foco em trabalho agêntico

A OpenAI lançou o GPT-5.5, novo modelo topo de linha que mira trabalho real no computador: código agêntico, pesquisa, planilhas, automação de ferramentas. Bate 82.7% em Terminal-Bench 2.0, 84.9% em GDPval e mantém a latência por token do GPT-5.4. Rolling out pros planos Plus, Pro, Business e Enterprise no ChatGPT e Codex. API sai em breve a US$ 5/US$ 30 por 1M tokens (input/output).

Mateus Veloso6 min de leituraraiz#llm#coding#agents

OpenAI lança GPT-5.5: modelo mais inteligente, mesma latência do GPT-5.4 e foco em trabalho agêntico foi anunciado em 23 de abril às 11:00, horário de Brasília. fonte original →

por que importa

GPT-5.5 sem tax de latência é o ponto que importa pra produto. Se o benchmark de Terminal-Bench (82.7%) se sustentar fora do controle da OpenAI, Cursor, Codex e afins ganham combustível. Pro BR, o preço em USD pesa: rode o custo de token antes de plugar em produção.

A OpenAI anunciou em 23 de abril o GPT-5.5, descrito pela empresa como o modelo mais inteligente e intuitivo da casa. O foco declarado é bem direto: sair do chat bonitinho e virar ferramenta de trabalho real no computador, puxando tarefas inteiras em vez de responder passo a passo.

A promessa central é que você joga uma task bagunçada e multi-etapa, e o modelo planeja, usa ferramentas, checa o próprio trabalho, navega na ambiguidade e segue até terminar. Ganhos mais fortes em código agêntico, computer use, trabalho de conhecimento e pesquisa científica inicial.

O truque de latência

Modelo maior normalmente serve mais devagar. A OpenAI diz que conseguiu manter a latência por token do GPT-5.4 em serving real, com inteligência em nível bem mais alto. Também usa significativamente menos tokens pra completar as mesmas tasks no Codex.

Essa parte importa mais do que o benchmark: 'mais inteligente sem ficar mais lento' é o que destrava adoção em produto. Gemini 3 Pro e Claude Opus 4.7 pagam pedágio de latência em tasks longas, e isso mata UX de agente.

Benchmarks principais

A OpenAI publicou tabela comparativa com GPT-5.4, GPT-5.5 Pro, GPT-5.4 Pro, Claude Opus 4.7 e Gemini 3.1 Pro. Destaques:

Terminal-Bench 2.0 (workflows complexos de linha de comando): 82.7% vs 75.1% do GPT-5.4, 69.4% do Opus 4.7, 68.5% do Gemini 3.1 Pro
SWE-Bench Pro (issues reais do GitHub): 58.6%. Claude Opus 4.7 lidera com 64.3%, mas a OpenAI nota que laboratórios reportaram evidência de memorização nesse eval
Expert-SWE interno (tasks longas de ~20h de humano): 73.1% vs 68.5% do GPT-5.4
GDPval (trabalho de conhecimento em 44 profissões): 84.9%
OSWorld-Verified (operar computador real): 78.7%
Tau2-bench Telecom (atendimento): 98.0% sem tuning de prompt
FrontierMath Tier 4: 35.4% (GPT-5.5 Pro: 39.6%) vs 22.9% Opus 4.7, 16.7% Gemini 3.1 Pro
BrowseComp: 84.4% (GPT-5.5 Pro: 90.1%)
ARC-AGI-2 Verified: 85.0%, à frente de Gemini 3.1 Pro (77.1%) e Opus 4.7 (75.8%)

No Artificial Analysis Coding Index, a OpenAI afirma entregar performance de ponta a metade do custo dos modelos frontier concorrentes.

Código agêntico: o caso de uso forte

No Codex, o modelo aguenta implementação, refactor, debug, teste e validação. Testadores iniciais citam três comportamentos concretos: segurar contexto em sistemas grandes, raciocinar sobre falhas ambíguas, e carregar mudanças pelo codebase.

Dan Shipper, founder e CEO da Every, chamou o GPT-5.5 de "o primeiro modelo de código que usei com clareza conceitual séria". Ele conta que tinha um bug pós-launch que só um dos seus melhores engenheiros resolveu reescrevendo parte do sistema. O GPT-5.4 não conseguiu chegar no mesmo rewrite. O GPT-5.5 conseguiu.

Pietro Schirano, CEO da MagicPath, relatou merge de uma branch com centenas de mudanças de frontend e refactor numa main que também tinha mudado muito: resolvido em uma passada, em cerca de 20 minutos.

Um engenheiro da NVIDIA com acesso antecipado disse: "perder o acesso ao GPT-5.5 parece que me amputaram um membro".

"GPT-5.5 é visivelmente mais inteligente e persistente que o GPT-5.4, com performance de código mais forte e uso de ferramenta mais confiável. Fica na task muito mais tempo sem parar cedo, o que importa pro trabalho longo e complexo que os users delegam ao Cursor." Michael Truell, co-founder e CEO do Cursor

Trabalho de conhecimento

No Codex, o GPT-5.5 gera documentos, planilhas e apresentações melhor que o GPT-5.4. Alpha testers citaram pesquisa operacional, modelagem em planilha e transformar input bagunçado de negócio em plano.

A OpenAI diz que mais de 85% da própria empresa usa Codex toda semana em engenharia, finance, comunicação, marketing, data science e PM (Product Manager). Casos internos citados:

Comms: analisou 6 meses de pedidos de palestra, construiu framework de scoring e risco, e validou agente automatizado no Slack pra tratar pedidos de baixo risco
Finance: revisou 24.771 formulários K-1 de imposto (71.637 páginas) com workflow que excluiu dado pessoal, acelerando em 2 semanas vs ano anterior
Go-to-Market: funcionário automatizou report semanal de negócio, poupando 5-10 horas por semana

Pesquisa científica

No GeneBench (análise multi-etapa em genética e biologia quantitativa), o GPT-5.5 sobe pra 25.0% vs 19.0% do GPT-5.4. O Pro chega a 33.2%. No BixBench (bioinformática), 80.5%.

Derya Unutmaz, professor de imunologia e pesquisador no Jackson Laboratory for Genomic Medicine, usou o GPT-5.5 Pro pra analisar dataset de expressão gênica com 62 amostras e quase 28.000 genes, produzindo report que ele diz que levaria meses pro time dele.

Bartosz Naskręcki, professor assistente de matemática na Adam Mickiewicz University (Poznań, Polônia), construiu app de geometria algébrica num único prompt em 11 minutos, visualizando interseção de superfícies quadráticas e convertendo a curva em modelo de Weierstrass.

Uma versão interna do GPT-5.5 com harness customizado ajudou a descobrir uma nova prova sobre números de Ramsey, depois verificada em Lean.

Infraestrutura de inferência

Servir GPT-5.5 na latência do GPT-5.4 exigiu repensar inferência como sistema integrado. Foi co-designed, treinado e servido em sistemas NVIDIA GB200 e GB300 NVL72.

Um exemplo concreto: load balancing e partitioning. Antes, a OpenAI dividia requests num accelerator em número fixo de chunks. Com GPT-5.5, o Codex analisou semanas de padrão de tráfego em produção e escreveu algoritmos heurísticos customizados. Resultado: velocidade de geração de token subiu mais de 20%.

"Construído e servido em sistemas NVIDIA GB200 NVL72, o modelo permite que nossos times enviem features end-to-end a partir de prompts em linguagem natural, cortem tempo de debug de dias pra horas, e transformem semanas de experimentação em progresso durante a noite em codebases complexos." Justin Boitano, VP de Enterprise AI na NVIDIA

Cibersegurança: safeguards mais apertados

A OpenAI classifica as capacidades biológica/química e de cibersegurança do GPT-5.5 como High no Preparedness Framework (não atingiu Critical em cyber, mas é degrau acima do GPT-5.4).

Classificadores mais rígidos pra risco cyber entram com o modelo. A empresa avisa que alguns users vão achar chato no começo, até calibrar. Em paralelo, expandiu o programa Trusted Access for Cyber: defensores verificados (incluindo organizações que cuidam de infraestrutura crítica) podem pedir acesso a modelos cyber-permissivos como GPT-5.4-Cyber, com requisitos de segurança estritos.

Disponibilidade e preço

Rolando pra Plus, Pro, Business e Enterprise no ChatGPT e Codex. GPT-5.5 Pro sai pros planos Pro, Business e Enterprise no ChatGPT.

No Codex, o modelo vem com janela de contexto de 400K e modo Fast (gera tokens 1.5x mais rápido por 2.5x o custo). API chega em breve:

gpt-5.5: US$ 5 por 1M tokens de input, US$ 30 por 1M de output, janela de 1M
gpt-5.5-pro: US$ 30 por 1M de input, US$ 180 por 1M de output
Batch e Flex: metade da taxa padrão da API
Priority: 2.5x a taxa padrão

Preço do pro é salgado: US$ 180/M output coloca ele no mesmo patamar dos tiers premium. Pra quem faz batch de análise científica ou legal, ainda compensa vs alugar especialista. Pra agente em produção com volume alto, fica de olho no token efficiency prometido antes de migrar do 5.4.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.