A Anthropic mantém uma página dedicada ao time de Interpretability, cuja missão é descobrir como LLMs funcionam por dentro. A ideia é virar base pra AI safety: entender circuitos, persona vectors, introspecção do modelo e como conceitos são representados. Lista também o portfólio de papers, de Toy Models of Superposition (2022) até publicações agendadas pra 2026.
Interpretability é uma das poucas frentes onde a Anthropic tem vantagem real narrativa sobre OpenAI e Google. Não vende produto, mas sustenta o discurso de safety que justifica preço enterprise. Pra dev curioso, circuit tracing aberto vale o clone.
A Anthropic mantém uma página institucional do time de Interpretability, um dos quatro grupos de pesquisa da casa (junto com Alignment, Economic Research e Societal Impacts). A missão declarada: descobrir e entender como LLMs funcionam internamente, como base pra AI safety e resultados positivos.
O argumento é direto: raciocinar sobre a segurança de uma rede neural sem entender o que rola dentro dela é quase impossível. O objetivo do time é explicar em detalhe os comportamentos dos LLMs e usar isso pra atacar problemas que vão de viés a uso malicioso e comportamento autônomo nocivo.
Esse é o tipo de pesquisa que raramente vira manchete, mas é ela que sustenta argumento sério de safety. Sem interpretability, discussão sobre alinhamento vira filosofia.
Alguns pesquisadores vêm de machine learning puro. A página destaca que um membro é frequentemente descrito como quem começou mechanistic interpretability (a linha que tenta mapear circuitos dentro da rede), e outro assinou o famoso paper de scaling laws. Outros chegaram depois de carreiras em astronomia, física, matemática, biologia e visualização de dados.
A página em si funciona como hub do trabalho publicado. Os destaques chamados no topo:
A página lista o portfólio com data, categoria e título. Inclui itens com data futura (provavelmente pre-prints agendados ou erro de metadata na página):
Pra quem acompanha safety research, a progressão é interessante: de superposition (2022, teórico) pra circuit tracing aberto (mai/2025, ferramenta) pra introspecção e diff de modelos (2025-2026, aplicação prática). Vale abrir o open-source de circuit tracing se você mexe com análise de modelo próprio.
A página também aponta vagas abertas no time.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0