Pesquisadores apresentaram o Cosmos 3, um novo modelo de inteligência artificial que unifica pela primeira vez o processamento simultâneo de linguagem, imagem, vídeo, áudio e sequências de ação em uma única arquitetura. O sistema, descrito em artigo publicado no repositório arXiv, foi projetado como espinha dorsal para agentes físicos inteligentes, como robôs e sistemas autônomos.
Sua arquitetura, baseada em uma mistura de transformadores (mixture-of-transformers), permite que o mesmo modelo execute tarefas de compreensão e geração em todas essas modalidades, eliminando a necessidade de modelos separados para cada tipo de dado. Os resultados de testes mostram que o Cosmos 3 estabelece novo estado da arte em uma ampla gama de tarefas, desde geração de imagens a partir de texto até a previsão de ações para robôs.
Segundo o levantamento independente Artificial Analysis, as versões pós-treinadas do Cosmos 3 foram classificadas como os melhores modelos de código aberto para geração texto-imagem e imagem-vídeo. Além disso, a plataforma RoboArena apontou o modelo como o melhor entre as políticas de ação para robôs, destacando sua capacidade de operar no mundo físico.
Comprometido com a abertura e a aceleração da pesquisa em IA Física, o grupo disponibilizou o código-fonte, os pesos dos modelos, conjuntos de dados sintéticos curados e benchmarks de avaliação sob a licença OpenMDW-1.1 da Linux Foundation, conforme indicado no artigo do arXiv. A iniciativa representa um marco para a comunidade que trabalha com agentes corporificados e simulações do mundo real.
A liberação de modelos poderosos em código aberto representa uma oportunidade para reduzir a dependência de soluções proprietárias controladas por grandes corporações dos Estados Unidos. Ao adotar bases abertas e adaptáveis, instituições de pesquisa e empresas podem desenvolver aplicações de IA física em áreas como agricultura de precisão, manufatura automatizada e inspeção de infraestrutura sem depender de APIs estrangeiras.
A unificação de modalidades em um único modelo também aponta para o futuro dos agentes corporificados, capazes de perceber o ambiente por múltiplos sentidos e agir de forma coordenada. Com o Cosmos 3, o ecossistema de IA de código aberto avança significativamente, desafiando o monopólio de grandes modelos fechados e ampliando as possibilidades de inovação soberana.
Com informações de https://arxiv.org/.