Equipe da Universidade de Zhejiang cria Sistema de Raciocínio Visual que permite que robôs pensem com seus olhos — 22x mais rápido que texto

0 Comentários🗣️🔥 Pesquisadores da Universidade de Zhejiang, em colaboração com a Universidade Cornell, a Universidade Nacional de Singapura e a Universidade Xidian, desenvolveram um sistema inovador de raciocínio visual que permite aos robôs pensar com seus olhos em vez de processar monólogos internos baseados em linguagem. O sistema, chamado VisualThink-VLA, alcança uma melhoria de velocidade […]

Redação

07/06/2026 - 08h25 sem comentários

Apoie o Cafezinho

Siga-nos no

Equipe da Universidade de Zhejiang cria Sistema de Raciocínio Visual que permite que robôs pensem com seus olhos — 22x mais rápido que texto

0 Comentários🗣️🔥

Pesquisadores da Universidade de Zhejiang, em colaboração com a Universidade Cornell, a Universidade Nacional de Singapura e a Universidade Xidian, desenvolveram um sistema inovador de raciocínio visual que permite aos robôs pensar com seus olhos em vez de processar monólogos internos baseados em linguagem.

O sistema, chamado VisualThink-VLA, alcança uma melhoria de velocidade de 22,8 vezes em comparação com abordagens de raciocínio baseadas em texto, ao mesmo tempo em que oferece maior precisão.

A percepção fundamental por trás do VisualThink-VLA é que os modelos tradicionais Vision-Language-Action dependem de raciocínio em cadeia baseado em texto, onde o robô essencialmente escreve um ensaio interno descrevendo cada etapa antes de agir. Esse processo leva em média 8,377 segundos por etapa, algo dolorosamente lento para tarefas de manipulação em tempo real. O VisualThink-VLA substitui tokens de texto por tokens de raciocínio visual, reduzindo o tempo de processamento para apenas 0,367 segundos por etapa.

O sistema emprega uma arquitetura de evidência visual de quatro canais, compreendendo canais de Caixa Delimitadora, Borda, Movimento e Relação. Em vez de usar todos os quatro canais indiscriminadamente, o VisualThink-VLA apresenta um mecanismo de roteamento adaptativo que seleciona apenas 2,22 canais por etapa em média, otimizando o equilíbrio entre eficiência computacional e qualidade de raciocínio.

Testes em oito benchmarks produziram uma taxa média de sucesso de 92,63 por cento, superando a abordagem baseada em texto ECoT, que alcançou 85,09 por cento. A vantagem de velocidade é ainda mais pronunciada: 22,8 vezes mais rápido enquanto é mais preciso, uma combinação rara em sistemas de IA onde velocidade e qualidade são tipicamente trocadas uma pela outra.

Os pesquisadores validaram o sistema em um braço robótico PIPER NERO de 7 graus de liberdade, demonstrando sucesso em operações de pegar e colocar múltiplos objetos, colocação sensível a relações onde as relações espaciais dos objetos importam, reorientação sensível ao contato e tarefas compostas de dois estágios que requerem raciocínio sequencial.

Os dados de treinamento, denominados VisualEvidence-Set, contêm 754.700 instruções cobrindo diversos cenários de manipulação.

Uma vantagem chave do design é que o VisualThink-VLA opera como um módulo plug-and-play para sistemas VLA existentes. Isso significa que robôs que atualmente usam raciocínio baseado em texto podem ser atualizados sem substituir inteiramente sua arquitetura subjacente.

O artigo está disponível no arXiv sob o identificador 2605.30011.

O trabalho representa uma mudança de paradigma de escrever um ensaio e depois agir para ver-pensar-agir, aproximando o raciocínio robótico de como os humanos naturalmente operam, processando informações visuais diretamente em vez de traduzi-las através da linguagem.

Material de referencia publicado por Pandaily.

Apoie o Cafezinho

Redação

Mais matérias deste colunista

Siga-nos no

BYD Humanoid Robot Yao Shun Yu: Inheriting Wisdom. Shaping the Future.

Próxima matéria

BYD desenvolve secretamente robô humanoide codinome Yao-Shun-Yu enquanto gigantes automotivas correm para IA incorporada

07/06/2026 - 08:26

Equipe da Universidade de Zhejiang cria Sistema de Raciocínio Visual que permite que robôs pensem com seus olhos — 22x mais rápido que texto

BYD desenvolve secretamente robô humanoide codinome Yao-Shun-Yu enquanto gigantes automotivas correm para IA incorporada

Recentes

Pentágono solicita US$ 67 bilhões ao Congresso em meio a tensões com o Irã

Reciprocidade não é retaliação nem olho por olho, diz Alckmin

Tarifaço de 25% dos EUA sobre o Brasil começa a valer

Comentários

Escreva seu comentário

Leia mais

China exige fim do duplo padrão australiano em teste de míssil

Hugging Face sofre ataque cibernético e expõe dados internos

Crime de guerra? EUA usam drone marítimo autônomo com IA

China desafia EUA e alianças decidirão guerra dos chips

Recentes

Pentágono solicita US$ 67 bilhões ao Congresso em meio a tensões com o Irã

Reciprocidade não é retaliação nem olho por olho, diz Alckmin

Tarifaço de 25% dos EUA sobre o Brasil começa a valer

Café despenca 34,8%, petróleo cai 30,4%: como o tarifaço de Trump atinge produto a produto as exportações brasileiras

Pentágono pede mais R$ 462 bilhões ao Congresso enquanto Trump ameaça atingir bunker “inatingível” no Irã

Rubio e Wang Yi debatem visita de Xi aos EUA e tensões no Mar da China

Mega-Sena não tem ganhador; prêmio sobe para R$ 62 milhões

Flávio Bolsonaro mente sobre urnas a diplomatas estrangeiros

Trump considera ataque a bunker nuclear do Irã cinco dias após trégua

Acordo regulamenta trabalho no comércio em feriados

China exige fim do duplo padrão australiano em teste de míssil

Flávio Bolsonaro muda QG para SP e mira Tarcísio e mercado financeiro

Irã responde a bombardeios dos EUA com ataques a bases americanas

Ministério da Saúde monitora 1.153 focos de calor em 15 estados e divulga orientações de proteção

TSE mantém limite de R$ 133 mi para gastos de campanha presidencial

Lula desafia Rubio e força Flávio a defender laços com Washington

Startup chinesa desafia líderes dos EUA com IA de 2,8 trilhões de parâmetros

PF cumpre mandados contra suspeitos de desviar R$ 45 milhões de contas

Lula abre sete pontos sobre Flávio Bolsonaro no primeiro turno

EUA ameaçam sancionar a China por ‘roubo’ de IA: quando a única política externa que resta é punir