Pesquisadores da Universidade de Zhejiang, em colaboração com a Universidade Cornell, a Universidade Nacional de Singapura e a Universidade Xidian, desenvolveram um sistema inovador de raciocínio visual que permite aos robôs pensar com seus olhos em vez de processar monólogos internos baseados em linguagem.
O sistema, chamado VisualThink-VLA, alcança uma melhoria de velocidade de 22,8 vezes em comparação com abordagens de raciocínio baseadas em texto, ao mesmo tempo em que oferece maior precisão.
A percepção fundamental por trás do VisualThink-VLA é que os modelos tradicionais Vision-Language-Action dependem de raciocínio em cadeia baseado em texto, onde o robô essencialmente escreve um ensaio interno descrevendo cada etapa antes de agir. Esse processo leva em média 8,377 segundos por etapa, algo dolorosamente lento para tarefas de manipulação em tempo real. O VisualThink-VLA substitui tokens de texto por tokens de raciocínio visual, reduzindo o tempo de processamento para apenas 0,367 segundos por etapa.
O sistema emprega uma arquitetura de evidência visual de quatro canais, compreendendo canais de Caixa Delimitadora, Borda, Movimento e Relação. Em vez de usar todos os quatro canais indiscriminadamente, o VisualThink-VLA apresenta um mecanismo de roteamento adaptativo que seleciona apenas 2,22 canais por etapa em média, otimizando o equilíbrio entre eficiência computacional e qualidade de raciocínio.
Testes em oito benchmarks produziram uma taxa média de sucesso de 92,63 por cento, superando a abordagem baseada em texto ECoT, que alcançou 85,09 por cento. A vantagem de velocidade é ainda mais pronunciada: 22,8 vezes mais rápido enquanto é mais preciso, uma combinação rara em sistemas de IA onde velocidade e qualidade são tipicamente trocadas uma pela outra.
Os pesquisadores validaram o sistema em um braço robótico PIPER NERO de 7 graus de liberdade, demonstrando sucesso em operações de pegar e colocar múltiplos objetos, colocação sensível a relações onde as relações espaciais dos objetos importam, reorientação sensível ao contato e tarefas compostas de dois estágios que requerem raciocínio sequencial.
Os dados de treinamento, denominados VisualEvidence-Set, contêm 754.700 instruções cobrindo diversos cenários de manipulação.
Uma vantagem chave do design é que o VisualThink-VLA opera como um módulo plug-and-play para sistemas VLA existentes. Isso significa que robôs que atualmente usam raciocínio baseado em texto podem ser atualizados sem substituir inteiramente sua arquitetura subjacente.
O artigo está disponível no arXiv sob o identificador 2605.30011.
O trabalho representa uma mudança de paradigma de escrever um ensaio e depois agir para ver-pensar-agir, aproximando o raciocínio robótico de como os humanos naturalmente operam, processando informações visuais diretamente em vez de traduzi-las através da linguagem.
Material de referencia publicado por Pandaily.


Nenhum comentário ainda, seja o primeiro!