Pesquisa revela que modelos de IA para robôs e carros autônomos falham em testes de segurança

Ilustração editorial sobre Pesquisa revela que modelos de IA para robôs e carros autônomos falham em testes de segurança. (Ilustração: Cafezinho / Wan 2.6)

Modelos de visão e linguagem (VLMs), a espinha dorsal da inteligência artificial embarcada em robôs, carros autônomos e drones, apresentam falhas sistêmicas de percepção e raciocínio que podem levar a decisões perigosas no mundo físico. A descoberta é de um amplo estudo internacional que submeteu 13 dos mais avançados VLMs a um rigoroso escrutínio de segurança, revelando que o tamanho do modelo não garante resistência a ataques e que as táticas adversariais mais baratas frequentemente rivalizam com as mais sofisticadas.

O trabalho, intitulado REALM e disponível na plataforma de preprints arXiv, estabelece o primeiro benchmark unificado de red-teaming — termo técnico para testes de estresse de segurança — voltado especificamente para sistemas de IA que operam no ambiente físico. A iniciativa integra 12 métodos de ataque, 3 defesas independentes de modelo e 13 VLMs, todos analisados sob um mesmo protocolo prático de caixa-preta, usando conjuntos de dados e métricas compartilhados.

A fragmentação anterior dos testes de segurança em IA era um problema grave. Diferentes equipes de pesquisa utilizavam métricas e ameaças incompatíveis, tornando impossível distinguir se um modelo aparentava ser mais vulnerável por fraqueza real, por um ataque mais potente ou por um ambiente de avaliação mais severo. O REALM elimina essa ambiguidade ao construir uma arquitetura de avaliação comum.

A inovação central do estudo é um pipeline gerador de objetivos que cria alvos de ataque idênticos para cada cena física avaliada. Em vez de comparar métodos de ataque com propósitos diferentes, o novo protocolo padroniza os objetivos, garantindo que os 12 mecanismos de intrusão no sistema de IA estejam todos tentando induzir a mesma falha perigosa — como ignorar um semáforo ou confundir uma placa de ‘PARE’ com um outdoor inofensivo.

Os resultados da bateria de testes trazem alertas importantes para a indústria de IA. Ataques de injeção de texto e de manipulação tipográfica se destacaram como os maiores indutores de falhas, superando métodos visuais mais complexos. Enquanto isso, uma técnica chamada otimização multimodal, que coordena ataques visuais e textuais simultaneamente, demonstrou a maior capacidade de transferência: uma perturbação visual calculada para enganar um modelo frequentemente derrubava outros modelos também.

A pesquisa evidenciou ainda a economia dos ataques adversariais. Métodos de ataque rápido, executados em uma única passagem pelo modelo, obtiveram taxas de sucesso estatisticamente equivalentes às de métodos iterativos muito mais caros computacionalmente. Na prática, isso significa que agentes maliciosos não precisam de infraestrutura sofisticada para explorar vulnerabilidades em VLMs utilizados em segurança pública, logística ou veículos autônomos. Um ataque eficaz pode ser mais barato e mais acessível do que se supunha.

Outro dado relevante desafia a crença difundida de que aumentar a escala dos modelos resolve problemas de segurança. O REALM constatou que o número de parâmetros ou o tamanho do modelo não confere robustez adversarial: modelos maiores não foram intrinsecamente mais resilientes, o que desmonta a narrativa de que a próxima geração de IAs gigantes será naturalmente mais segura. A correlação entre escala e segurança simplesmente não se confirmou nos experimentos.

Os pesquisadores avaliaram os VLMs sob um modelo de ameaça de caixa-preta realista, onde o atacante só tem acesso às saídas do modelo, sem conhecer sua arquitetura ou parâmetros internos. Esse cenário replica fielmente as condições de ataque no mundo real, em que um adversário interage com uma API ou um dispositivo embarcado sem privilégios de engenharia reversa. As três defesas independentes testadas mostraram eficácia limitada contra o portfólio diversificado de ataques do benchmark.

O código do projeto, bem como os dados e a documentação técnica completa, foram disponibilizados publicamente para fomentar a reprodutibilidade e acelerar o desenvolvimento de VLMs mais robustos para aplicações críticas. A pesquisa chega em um momento em que a integração desses modelos em sistemas físicos — de fábricas automatizadas a veículos de transporte — se acelera globalmente.

A falibilidade dos sistemas de percepção artificial em cenários do mundo real permanece como um dos gargalos para a adoção segura de IA na infraestrutura crítica. O REALM oferece agora uma régua comum para que desenvolvedores, reguladores e pesquisadores meçam o progresso real das defesas, sem o viés de protocolos de teste incompatíveis que antes obscurecia a verdadeira superfície de vulnerabilidade desses sistemas.

Com informações de ARXIV.

Redação:
Related Post

Privacidade e cookies: Este site utiliza cookies. Ao continuar a usar este site, você concorda com seu uso.