Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.
Time de pesquisa da Apple (Masha Fedzechkina, Eleonora Gualdoni, Rita Ramos e Sinead Williamson) publicou um paper sobre vazamento de informação em modelos de visão-linguagem. O achado incomoda: logits que você achava inofensivos podem entregar mais do que deveriam.
Trabalhos recentes mostraram que probing (sondagem) nos internos do modelo revela muita coisa que não aparece na resposta gerada. Isso abre risco de vazamento, intencional ou não, onde o usuário consegue extrair informação que o dono do modelo presumiu estar trancada.
O paper faz a primeira comparação sistemática de quanta informação sobra em diferentes "níveis representacionais" conforme ela é comprimida do residual stream (rico em informação) por dois gargalos naturais:
Mesmo gargalos triviais de acessar, tipo os top logits do modelo, vazam informação irrelevante pra tarefa que estava presente na query em imagem. Em alguns casos, o top logit entrega TANTA informação quanto projeções diretas do residual stream inteiro.
Ou seja: você pergunta uma coisa pro VLM (Vision-Language Model), ele responde outra, mas os logits da resposta carregam pistas sobre elementos da imagem que nada tinham a ver com a pergunta.
Na prática, isso fura uma suposição comum de quem expõe modelo via API: "se eu só devolvo logits, não entrego muita coisa". O paper mostra que entrega sim, e às vezes quase tudo.
Muito provider de LLM e VLM libera top-k logits ou logprobs como feature padrão de API. Se você roda modelo proprietário em cima de query com conteúdo sensível (imagem médica, documento interno, foto com PII), os logits da resposta podem vazar atributos da imagem que você nunca pretendeu expor.
O paper não prescreve mitigação, mas abre a discussão: o threshold entre "expor logits é seguro" e "expor logits é equivalente a expor o residual stream" é mais fino do que parecia.
Publicação prevista pra abril de 2026. Paper disponível no site de research da Apple.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0