PESQUISA · APPLE · 20 ABR 2026

O que seus logits sabem? (A resposta pode te surpreender)

Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.

Curadoria cafecomtech2 min de leitura#vision#safety#multimodal

O que seus logits sabem? (A resposta pode te surpreender) foi anunciado em 20 de abril às 00:00, horário de Brasília. fonte original →

00:00 / 02:52

voz sintética · pt-br

Time de pesquisa da Apple (Masha Fedzechkina, Eleonora Gualdoni, Rita Ramos e Sinead Williamson) publicou um paper sobre vazamento de informação em modelos de visão-linguagem. O achado incomoda: logits que você achava inofensivos podem entregar mais do que deveriam.

O problema

Trabalhos recentes mostraram que probing (sondagem) nos internos do modelo revela muita coisa que não aparece na resposta gerada. Isso abre risco de vazamento, intencional ou não, onde o usuário consegue extrair informação que o dono do modelo presumiu estar trancada.

O paper faz a primeira comparação sistemática de quanta informação sobra em diferentes "níveis representacionais" conforme ela é comprimida do residual stream (rico em informação) por dois gargalos naturais:

Projeções de baixa dimensão do residual stream obtidas via tuned lens
Os top-k logits finais mais prováveis de afetar a resposta do modelo

O achado desconfortável

Mesmo gargalos triviais de acessar, tipo os top logits do modelo, vazam informação irrelevante pra tarefa que estava presente na query em imagem. Em alguns casos, o top logit entrega TANTA informação quanto projeções diretas do residual stream inteiro.

Ou seja: você pergunta uma coisa pro VLM (Vision-Language Model), ele responde outra, mas os logits da resposta carregam pistas sobre elementos da imagem que nada tinham a ver com a pergunta.

Na prática, isso fura uma suposição comum de quem expõe modelo via API: "se eu só devolvo logits, não entrego muita coisa". O paper mostra que entrega sim, e às vezes quase tudo.

Por que importa

Muito provider de LLM e VLM libera top-k logits ou logprobs como feature padrão de API. Se você roda modelo proprietário em cima de query com conteúdo sensível (imagem médica, documento interno, foto com PII), os logits da resposta podem vazar atributos da imagem que você nunca pretendeu expor.

O paper não prescreve mitigação, mas abre a discussão: o threshold entre "expor logits é seguro" e "expor logits é equivalente a expor o residual stream" é mais fino do que parecia.

Publicação prevista pra abril de 2026. Paper disponível no site de research da Apple.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.