Cosmos 3 integra todas as modalidades de IA em único modelo e é liberado como código aberto

Ilustração editorial sobre Cosmos 3 integra todas as modalidades de IA em único modelo e é liberado como código aberto. (Ilustração: Cafezinho / Wan 2.6)

Pesquisadores apresentaram o Cosmos 3, um novo modelo de inteligência artificial que unifica pela primeira vez o processamento simultâneo de linguagem, imagem, vídeo, áudio e sequências de ação em uma única arquitetura. O sistema, descrito em artigo publicado no repositório arXiv, foi projetado como espinha dorsal para agentes físicos inteligentes, como robôs e sistemas autônomos.

Sua arquitetura, baseada em uma mistura de transformadores (mixture-of-transformers), permite que o mesmo modelo execute tarefas de compreensão e geração em todas essas modalidades, eliminando a necessidade de modelos separados para cada tipo de dado. Os resultados de testes mostram que o Cosmos 3 estabelece novo estado da arte em uma ampla gama de tarefas, desde geração de imagens a partir de texto até a previsão de ações para robôs.

Segundo o levantamento independente Artificial Analysis, as versões pós-treinadas do Cosmos 3 foram classificadas como os melhores modelos de código aberto para geração texto-imagem e imagem-vídeo. Além disso, a plataforma RoboArena apontou o modelo como o melhor entre as políticas de ação para robôs, destacando sua capacidade de operar no mundo físico.

Comprometido com a abertura e a aceleração da pesquisa em IA Física, o grupo disponibilizou o código-fonte, os pesos dos modelos, conjuntos de dados sintéticos curados e benchmarks de avaliação sob a licença OpenMDW-1.1 da Linux Foundation, conforme indicado no artigo do arXiv. A iniciativa representa um marco para a comunidade que trabalha com agentes corporificados e simulações do mundo real.

A liberação de modelos poderosos em código aberto representa uma oportunidade para reduzir a dependência de soluções proprietárias controladas por grandes corporações dos Estados Unidos. Ao adotar bases abertas e adaptáveis, instituições de pesquisa e empresas podem desenvolver aplicações de IA física em áreas como agricultura de precisão, manufatura automatizada e inspeção de infraestrutura sem depender de APIs estrangeiras.

A unificação de modalidades em um único modelo também aponta para o futuro dos agentes corporificados, capazes de perceber o ambiente por múltiplos sentidos e agir de forma coordenada. Com o Cosmos 3, o ecossistema de IA de código aberto avança significativamente, desafiando o monopólio de grandes modelos fechados e ampliando as possibilidades de inovação soberana.

Com informações de https://arxiv.org/.

Redação:
Related Post

Privacidade e cookies: Este site utiliza cookies. Ao continuar a usar este site, você concorda com seu uso.