FERRAMENTAS · GOOGLE · 22 ABR 2026

Google apresenta TPU 8i e 8t: dois chips especializados pra era dos agentes de IA

O Google anunciou a oitava geração do TPU com dois chips dedicados: o TPU 8i, otimizado pra inferência de agentes de IA autônomos que executam workflows multi-etapas, e o TPU 8t, voltado pra treinar modelos complexos num único pool gigante de memória. A dupla vira o motor da stack full-stack do Google pra escalar IA agêntica.

Mateus Veloso2 min de leiturade olho#tpu#hardware#agents

Google apresenta TPU 8i e 8t: dois chips especializados pra era dos agentes de IA foi anunciado em 22 de abril às 12:00, horário de Brasília. fonte original →

00:00 / 02:47

voz sintética · pt-br

por que importa

Google separando silício pra inferência de agente é sinal claro de onde a casa tá apostando. Sem números no anúncio, dá pra tratar como posicionamento. Quem roda workload pesado na GCP fica de olho no pricing quando sair.

O Google apresentou dois chips novos na oitava geração do TPU (Tensor Processing Unit), pensados pra workloads de IA cada vez mais pesados, incluindo agentes autônomos que executam tarefas em nome do usuário.

Agentes de IA precisam raciocinar, planejar e rodar workflows multi-etapas. Cada passo é uma ida ao modelo, e o gargalo vira latência acumulada. É aí que o Google divide o trabalho em dois silícios diferentes.

TPU 8i: o chip pra inferência de agente

O TPU 8i foi desenhado especificamente pra agentes completarem essas etapas bem rápido, entregando uma experiência fluida pro usuário final. Na prática, é o chip que roda o agente em produção.

TPU 8t: o chip pra treinar

Complementando o 8i, o TPU 8t é otimizado pra treinamento e consegue rodar até os modelos mais complexos num único pool massivo de memória. A pegada aqui é não precisar fatiar o modelo entre nós quando ele cresce, o que simplifica o treino de modelos gigantes.

A divisão inferência/treino em silícios separados ecoa o que a Nvidia faz com Blackwell (B200 vs GB200) e a AWS com Trainium/Inferentia. O Google tá assumindo que agente virou workload principal, não caso de borda, e dedicando hardware pra isso.

A stack completa

Os dois chips entram junto com o resto da infra proprietária do Google: rede, data centers e operação com eficiência energética. É o motor que o Google quer usar pra entregar IA agêntica responsiva em escala de massa.

Detalhe que chama atenção: o post não cita números. Sem comparação de throughput, sem TCO (custo total de posse), sem benchmark contra H100 ou MI300X. Fica o framing estratégico, a entrega técnica vem depois.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.