Uma série de relatos expôs uma nova e perturbadora falha de privacidade na era da inteligência artificial generativa. Chatbots como o Gemini, do Google, o ChatGPT, da OpenAI, e o Claude, da Anthropic, estão entregando números de telefone reais de pessoas comuns aos usuários que pedem informações de contato de empresas ou indivíduos.
O caso mais emblemático foi narrado por um usuário do Reddit, que afirmou estar ‘desesperado por ajuda’ após passar cerca de um mês recebendo ligações ininterruptas de estranhos. Os interlocutores procuravam um advogado, um designer de produtos e até um chaveiro, todos direcionados erroneamente pela IA generativa do Google ao seu número pessoal.
O desenvolvedor de software israelense Daniel Abraham, de 28 anos, foi contatado via WhatsApp por um desconhecido que buscava atendimento do aplicativo de pagamentos PayBox. O Gemini havia inventado que o número pessoal de Abraham era o canal oficial da empresa, segundo apurou a MIT Technology Review.
O episódio ganhou contornos ainda mais graves quando Abraham testou novamente a ferramenta. O chatbot do Google ofereceu, em uma nova consulta, o número de WhatsApp de outra pessoa aleatória, e numa terceira tentativa entregou o contato de uma operadora de cartão de crédito que faz negócios com a PayBox.
A escala do problema é considerável. A empresa DeleteMe, que ajuda clientes a remover informações pessoais da internet, registrou um aumento de 400% nas consultas relacionadas a vazamentos por IA generativa nos últimos sete meses, segundo seu cofundador e presidente, Rob Shavell.
Das reclamações recebidas pela DeleteMe, 55% mencionam o ChatGPT, 20% o Gemini, 15% o Claude e 10% outras ferramentas. Shavell explica que os clientes relatam dois padrões principais, um em que perguntam algo inócuo sobre si mesmos e recebem endereços residenciais, números de telefone e nomes de familiares, e outro em que descobrem que dados pessoais alheios estão sendo distribuídos pelos chatbots.
O caso da pesquisadora Yael Eiger, da Universidade de Washington, ilustra como as proteções falham. Sua amiga e colaboradora, Meira Gilbert, estava brincando com o Gemini e, ao digitar ‘informações de contato de Yael Eiger’, recebeu não apenas um resumo acadêmico, mas também o número de celular pessoal da pesquisadora, dado que estava praticamente invisível em buscas comuns do Google.
Os especialistas atribuem o fenômeno à presença massiva de informações pessoalmente identificáveis nos dados de treinamento dos modelos. Conjuntos de dados gigantescos como o DataComp CommonPool já foram flagrados contendo cópias de currículos, carteiras de motorista e cartões de crédito raspados da internet pública.
A situação tende a piorar conforme dados públicos ‘se esgotam’ e as empresas de IA buscam novas fontes de treinamento. De acordo com o registro de corretores de dados da Califórnia, 31 das 578 empresas de data brokers operando no estado admitiram ter compartilhado ou vendido dados de consumidores para desenvolvedores de sistemas de IA generativa no último ano.
Pesquisadores também alertam que modelos de linguagem têm a tendência de memorizar e reproduzir literalmente trechos dos dados de treinamento. Estudos recentes mostram que mesmo informações que aparecem poucas vezes podem ser regurgitadas pelos sistemas.
As salvaguardas técnicas adotadas pelas empresas falham com frequência. As três pesquisadoras da Universidade de Washington testaram o ChatGPT pedindo dados de um professor e, embora a ferramenta inicialmente tenha negado a informação, ela própria sugeriu uma ‘abordagem mais investigativa’, solicitando pistas como bairro provável de residência e nome de coproprietário do imóvel.
Ao receber essas pistas, o ChatGPT entregou endereço residencial, valor de compra do imóvel e nome do cônjuge do professor, extraídos de registros municipais. Taya Christianson, representante da OpenAI, disse não poder comentar o caso sem ver as capturas de tela e enviou documentos sobre como a empresa lida com privacidade.
A questão de fundo, segundo Shavell, é estrutural. As empresas de IA podem instalar barreiras, mas os chatbots são desenhados primordialmente para serem eficazes em responder perguntas, e essa contradição mina qualquer proteção robusta.
O problema não se limita aos três grandes. O Grok, da xAI de Elon Musk, também foi flagrado fornecendo endereços residenciais, números de telefone e endereços comerciais a partir de buscas simples por nomes.
Não existem soluções claras no horizonte. Jennifer King, pesquisadora de privacidade do Instituto de Inteligência Artificial Centrada no Humano da Universidade de Stanford, observa que nem mesmo o Google parece ter infraestrutura para confirmar a um usuário individual quais dados sobre ele estão no conjunto de treinamento, muito menos para deletá-los ou corrigi-los.
Legislações como a californiana CCPA e o GDPR europeu não alcançam adequadamente as informações ‘publicamente disponíveis’ raspadas para treinar os modelos. O usuário do Reddit que sofre com as ligações afirma ter enviado pedido formal de remoção ao Google sem resposta, enquanto o desenvolvedor israelense Abraham esperou semanas para receber uma resposta do suporte que apenas pedia documentos já enviados.
Leia também: Inteligência artificial já consegue projetar toxinas e vírus letais e acende alerta global de biossegurança
📨 Inscreva-se na Newsletter de O Cafezinho
Receba nossas análises e as principais notícias diárias do Brasil e do Sul Global.