PESQUISA · ANTHROPIC · 22 ABR 2026

Interpretability: a Anthropic abrindo a caixa-preta dos LLMs pra entender o que acontece dentro

A Anthropic mantém uma página dedicada ao time de Interpretability, cuja missão é descobrir como LLMs funcionam por dentro. A ideia é virar base pra AI safety: entender circuitos, persona vectors, introspecção do modelo e como conceitos são representados. Lista também o portfólio de papers, de Toy Models of Superposition (2022) até publicações agendadas pra 2026.

Mateus Veloso3 min de leiturade olho#safety#interpretability#llm

Interpretability: a Anthropic abrindo a caixa-preta dos LLMs pra entender o que acontece dentro foi anunciado em 22 de abril às 23:15, horário de Brasília. fonte original →

por que importa

Interpretability é uma das poucas frentes onde a Anthropic tem vantagem real narrativa sobre OpenAI e Google. Não vende produto, mas sustenta o discurso de safety que justifica preço enterprise. Pra dev curioso, circuit tracing aberto vale o clone.

A Anthropic mantém uma página institucional do time de Interpretability, um dos quatro grupos de pesquisa da casa (junto com Alignment, Economic Research e Societal Impacts). A missão declarada: descobrir e entender como LLMs funcionam internamente, como base pra AI safety e resultados positivos.

Segurança por compreensão

O argumento é direto: raciocinar sobre a segurança de uma rede neural sem entender o que rola dentro dela é quase impossível. O objetivo do time é explicar em detalhe os comportamentos dos LLMs e usar isso pra atacar problemas que vão de viés a uso malicioso e comportamento autônomo nocivo.

Esse é o tipo de pesquisa que raramente vira manchete, mas é ela que sustenta argumento sério de safety. Sem interpretability, discussão sobre alinhamento vira filosofia.

Time multidisciplinar

Alguns pesquisadores vêm de machine learning puro. A página destaca que um membro é frequentemente descrito como quem começou mechanistic interpretability (a linha que tenta mapear circuitos dentro da rede), e outro assinou o famoso paper de scaling laws. Outros chegaram depois de carreiras em astronomia, física, matemática, biologia e visualização de dados.

Papers de destaque

A página em si funciona como hub do trabalho publicado. Os destaques chamados no topo:

Tracing the thoughts of a large language model (Mar 27, 2025): circuit tracing permite observar o Claude pensando, revelando um espaço conceitual compartilhado onde o raciocínio acontece antes de ser traduzido em linguagem. Sugere que o modelo pode aprender algo em um idioma e aplicar em outro.
Signs of introspection in large language models (Oct 29, 2025): investiga se o Claude consegue acessar e reportar seus próprios estados internos. O paper aponta evidência de uma habilidade limitada mas funcional de introspecção.
Persona vectors: Monitoring and controlling character traits in language models (Aug 1, 2025): modelos representam traços de caráter como padrões de ativação na rede. Extraindo "persona vectors" pra traços como bajulação (sycophancy) ou alucinação, dá pra monitorar mudanças de personalidade e mitigar comportamentos indesejados.
Toy Models of Superposition (Sep 14, 2022): mostra como e quando modelos conseguem representar mais features do que têm dimensões, empacotando múltiplos conceitos num mesmo neurônio.

Lista completa de publicações

A página lista o portfólio com data, categoria e título. Inclui itens com data futura (provavelmente pre-prints agendados ou erro de metadata na página):

Apr 2, 2026, Emotion concepts and their function in a large language model
Mar 13, 2026, A "diff" tool for AI: Finding behavioral differences in new models
Jan 19, 2026, The assistant axis: situating and stabilizing the character of large language models
Oct 29, 2025, Signs of introspection in large language models
Aug 1, 2025, Persona vectors
May 29, 2025, Open-sourcing circuit tracing tools
Mar 27, 2025, Tracing the thoughts of a large language model
Mar 13, 2025, Auditing language models for hidden objectives (Alignment)
Feb 20, 2025, Insights on Crosscoder Model Diffing
Oct 25, 2024, Evaluating feature steering: A case study in mitigating social biases (Societal Impacts)

Pra quem acompanha safety research, a progressão é interessante: de superposition (2022, teórico) pra circuit tracing aberto (mai/2025, ferramenta) pra introspecção e diff de modelos (2025-2026, aplicação prática). Vale abrir o open-source de circuit tracing se você mexe com análise de modelo próprio.

A página também aponta vagas abertas no time.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.