FERRAMENTAS · OPENAI · 22 ABR 2026

OpenAI lança Privacy Filter, modelo open-weight pra detectar e mascarar PII em texto

A OpenAI liberou o Privacy Filter, modelo open-weight que detecta e mascara informação pessoal identificável (PII) em texto. A empresa afirma precisão state-of-the-art na tarefa. É uma peça pra quem precisa higienizar dados antes de mandar pra LLM, treinar modelo próprio ou logar prompts sem vazar dado sensível.

Mateus Veloso2 min de leiturade olho#open_source#safety#pii_detection

OpenAI lança Privacy Filter, modelo open-weight pra detectar e mascarar PII em texto foi anunciado em 22 de abril às 00:00, horário de Brasília. fonte original →

00:00 / 02:46

voz sintética · pt-br

por que importa

Open-weight pra PII é movimento útil: tira dependência de API paga e permite rodar on-prem pra quem tem dado sensível. Mas enquanto não sair benchmark em PT-BR com CPF/CNPJ/RG, trata como ferramenta pra testar, não pra adotar cego.

A OpenAI anunciou o Privacy Filter, modelo open-weight (pesos abertos, você baixa e roda onde quiser) voltado pra detectar e mascarar PII (Personally Identifiable Information, ou informação pessoal identificável) em texto. A empresa diz que o modelo entrega precisão state-of-the-art na tarefa.

O que faz

O Privacy Filter identifica trechos de texto que contêm dado pessoal (nome, CPF equivalente, endereço, telefone, email, etc.) e faz a redação, ou seja, substitui por placeholder ou remove. É o tipo de componente que entra num pipeline antes do prompt chegar no modelo final, ou antes de logs serem persistidos.

Por que importa

Quem roda LLM em produção com dado de usuário tem dois problemas recorrentes: evitar que PII vaze em logs de prompt e cumprir regras de privacidade (LGPD no BR, GDPR na Europa) antes de mandar texto pra API externa. A solução hoje geralmente é regex frágil ou serviço pago tipo AWS Comprehend, Azure PII Detection, Google DLP.

Um modelo open-weight da OpenAI muda o cálculo: você roda on-prem, sem mandar o dado sensível pra terceiro só pra descobrir que ele é sensível. Pra fintech, healthtech e govtech BR, isso é bem relevante.

O que falta saber

A nota da OpenAI é curta e não detalha tamanho do modelo, licença exata, benchmarks contra concorrentes (Presidio da Microsoft, Comprehend da AWS) nem cobertura de idiomas. Se o treino foi majoritariamente em inglês, precisão em português vai ser menor, e isso importa pra caso de uso BR onde CPF, CNPJ e RG têm formato próprio.

Antes de colocar em pipeline de produção, rode seu próprio benchmark com amostra de dado BR real. "State-of-the-art" em paper raramente sobrevive ao encontro com CEP mal formatado e nome com acento.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.