A OpenAI publicou um mergulho técnico no loop de agente do Codex, mostrando como trocou HTTP por WebSockets e aplicou cache escopado por conexão pra cortar overhead de API e melhorar a latência do modelo. É o tipo de otimização que importa quando o agente faz centenas de chamadas por sessão.
A OpenAI soltou um post técnico detalhando como o time do Codex acelerou o loop de agente usando WebSockets na Responses API, combinado com cache escopado por conexão.
Agente não é request-response simples. Cada turno do Codex dispara várias chamadas ao modelo, e cada chamada via HTTP tradicional carrega overhead de handshake, autenticação e setup de contexto. Em workflow longo, isso vira gargalo real de latência.
Dois movimentos principais:
O resultado é menos overhead de API e latência de modelo menor no loop do agente.
Na prática, essa é a direção que toda infra de agente vai ter que seguir: quem roda agente em produção com dezenas de tool calls por sessão sente na veia o custo do HTTP stateless. WebSocket + cache de conexão é arroz com feijão de sistema distribuído, só que agora aplicado no loop de LLM.
Se você tá construindo agente em cima da Responses API e tá vendo latência acumular a cada iteração, vale ler o post original pra pegar os detalhes de implementação. Pra quem usa Codex direto, é otimização transparente: o agente fica mais rápido sem mudar nada no teu lado.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0