Google lançou uma nova abordagem de edição no Auto frame do Google Photos: a foto 2D é interpretada como cena 3D, a câmera virtual é reposicionada e a IA generativa preenche o que ficou escondido. Roda em dois estágios (estimativa 3D + latent diffusion), corrige distorção de selfie grande-angular e entrega a versão reenquadrada como segunda opção dentro do Auto frame.
O Google anunciou uma nova abordagem de edição de imagem que já tá rodando no Auto frame do Google Photos. A ideia: deixar o usuário reimaginar uma foto a partir de um ângulo novo depois que ela foi tirada.
A dor é universal. Você abre a galeria, vê aquele quase-perfeito, e percebe que faltou pegar um pouco mais de um lado do rosto, ou que a câmera devia estar um pouco mais baixa. Selfie com sorriso bom, só que a lente grande-angular deixa o rosto esquisito. Crop e zoom não resolvem: o problema é a perspectiva fixa do clique original. Zoom não muda paralaxe, crop não revela o que ficou fora do frame.
O método tem dois estágios:
Estimativa de cena 3D e câmera: um modelo interno de 3D point map estima, pra cada pixel, um ponto 3D representando a superfície visível, e ainda aproxima a distância focal da câmera original. Esse modelo é configurado especificamente pra reconstruir corpos humanos e rostos com fidelidade, pra não estragar a identidade da pessoa.
Inpainting e retoque generativo: com o point map, dá pra renderizar a cena como se tivesse sido capturada com outra câmera (muda posição, orientação e distância focal). Só que ao girar a câmera virtual, aparecem buracos: partes do fundo que a lente original nunca capturou. Aí entra um latent diffusion model treinado pra preencher essas áreas e corrigir a renderização.
O treino do diffusion usou um dataset interno de pares de imagens com parâmetros de câmera conhecidos. A rede aprende a reconstruir a segunda imagem a partir da primeira re-renderizada. Na inferência, o Google usa classifier guidance com regional scaling pra preservar o conteúdo original e deixar o modelo criar só onde precisa.
Separar estimativa 3D da formação da imagem é a sacada técnica aqui. Dá pra mexer em intrínsecos (focal) e extrínsecos (posição/orientação) da câmera independente, coisa que editor generativo end-to-end tradicional não entrega com esse controle.
Pra rodar sem intervenção, modelos de ML detectam posição e orientação 3D dos rostos dos sujeitos principais. Junto com o point map, isso define os parâmetros ideais de câmera pra o enquadramento, especialmente em retrato.
O caso de selfie grande-angular tem tratamento específico: o método detecta a distorção de perspectiva (que faz o nariz parecer enorme, por exemplo) e ajusta o intrínseco da câmera virtual pra restaurar proporções naturais. Na prática, é como dar um passo pra trás depois da foto já ter sido tirada.
Tá live no Google Photos como parte do Auto frame. Fotos elegíveis que contêm pessoas passam pelo pipeline, e a versão reenquadrada aparece como segunda opção dentro dos candidatos do Auto frame. Um toque e tá aplicado.
O trabalho é colaboração entre Google DeepMind e Google Platforms & Devices. Contribuidores principais: Thiemo Alldieck, Marcos Seefelder, Hannah Woods, Pedro Velez, Michael Milne, Bert Le, Navin Sarma, Jasmin Repenning e Selena Shang.
Pra quem acompanha edição generativa, o detalhe interessante é o pipeline híbrido: reconstrução 3D clássica pra manter geometria, diffusion só no que falta. É o oposto da tendência de jogar tudo num modelo único. Aposta que essa arquitetura dá menos alucinação em rosto, que é onde o usuário percebe erro na hora.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0