O avanço da inteligência artificial está abalando a confiança em evidências visuais utilizadas em processos judiciais. Pesquisa publicada no arxiv.org analisou a capacidade de humanos e modelos de linguagem multimodais de última geração em diferenciar fotografias reais de imagens geradas por IA em contextos típicos de disputas civis.
Os pesquisadores criaram o conjunto de dados Synthetic Legal Evidence Detection (SLED-1400), composto por 200 imagens autênticas de evidências emparelhadas com 1.200 versões sintéticas produzidas por seis geradores contemporâneos de texto para imagem. O estudo envolveu 136 participantes leigos em um experimento controlado online e avaliou quatro modelos multimodais: GPT-5.1, Gemini-3-Pro, Gemini-3-Flash e Qwen3-VL-235B.
A precisão humana alcançou 64,8% no geral, porém despencou para 48,5% e 51,0% ao lidar com os geradores mais avançados, Gemini-3-Pro-Image e Flux-2-Max. Os resultados demonstram que a capacidade humana de distinguir entre imagens reais e sintéticas é, em muitos casos, equivalente ao acaso.
Os modelos de linguagem multimodal, por sua vez, nunca classificaram erroneamente uma imagem autêntica, atingindo 100% de especificidade. Contudo, apresentaram dificuldade em detectar a maioria das imagens sintéticas dos geradores mais complexos, com taxa média de detecção de apenas 5,9% para as saídas do Gemini-3-Pro-Image.
Os erros cometidos por humanos e modelos mostraram baixa correlação, enquanto os quatro modelos multimodais apresentaram forte correlação entre si. A conclusão do estudo é clara: nenhum dos grupos é um autenticador confiável isoladamente.
Os autores defendem que as evidências visuais em processos judiciais devem ser tratadas como contestáveis por natureza. Propõem uma abordagem combinada, envolvendo revisão humana especializada, triagem por modelos multimodais e infraestrutura de proveniência, como as Credenciais de Conteúdo C2PA, para assegurar a autenticidade das evidências visuais.


Nenhum comentário ainda, seja o primeiro!