A OpenAI liberou o Privacy Filter, modelo open-weight que detecta e mascara informação pessoal identificável (PII) em texto. A empresa afirma precisão state-of-the-art na tarefa. É uma peça pra quem precisa higienizar dados antes de mandar pra LLM, treinar modelo próprio ou logar prompts sem vazar dado sensível.
Open-weight pra PII é movimento útil: tira dependência de API paga e permite rodar on-prem pra quem tem dado sensível. Mas enquanto não sair benchmark em PT-BR com CPF/CNPJ/RG, trata como ferramenta pra testar, não pra adotar cego.
A OpenAI anunciou o Privacy Filter, modelo open-weight (pesos abertos, você baixa e roda onde quiser) voltado pra detectar e mascarar PII (Personally Identifiable Information, ou informação pessoal identificável) em texto. A empresa diz que o modelo entrega precisão state-of-the-art na tarefa.
O Privacy Filter identifica trechos de texto que contêm dado pessoal (nome, CPF equivalente, endereço, telefone, email, etc.) e faz a redação, ou seja, substitui por placeholder ou remove. É o tipo de componente que entra num pipeline antes do prompt chegar no modelo final, ou antes de logs serem persistidos.
Quem roda LLM em produção com dado de usuário tem dois problemas recorrentes: evitar que PII vaze em logs de prompt e cumprir regras de privacidade (LGPD no BR, GDPR na Europa) antes de mandar texto pra API externa. A solução hoje geralmente é regex frágil ou serviço pago tipo AWS Comprehend, Azure PII Detection, Google DLP.
Um modelo open-weight da OpenAI muda o cálculo: você roda on-prem, sem mandar o dado sensível pra terceiro só pra descobrir que ele é sensível. Pra fintech, healthtech e govtech BR, isso é bem relevante.
A nota da OpenAI é curta e não detalha tamanho do modelo, licença exata, benchmarks contra concorrentes (Presidio da Microsoft, Comprehend da AWS) nem cobertura de idiomas. Se o treino foi majoritariamente em inglês, precisão em português vai ser menor, e isso importa pra caso de uso BR onde CPF, CNPJ e RG têm formato próprio.
Antes de colocar em pipeline de produção, rode seu próprio benchmark com amostra de dado BR real. "State-of-the-art" em paper raramente sobrevive ao encontro com CEP mal formatado e nome com acento.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0