Nova técnica MapReduce LoRA aprimora otimização multiobjetivo em modelos generativos

Ilustração editorial sobre Nova técnica MapReduce LoRA aprimora otimização multiobjetivo em modelos generativos. (Ilustração: Cafezinho / Wan 2.6)

Pesquisadores introduziram uma abordagem inovadora, denominada MapReduce LoRA, para avançar a otimização multi-preferência em modelos generativos. Essa técnica aborda o desafio comum do “imposto de alinhamento”, onde a melhoria de uma dimensão de qualidade em modelos de geração de texto-para-imagem ou texto-para-vídeo frequentemente resulta na degradação de outras. A otimização de múltiplos objetivos é crucial para alinhar a saída dos modelos com as preferências humanas, que são inerentemente multidimensionais.

O problema do desequilíbrio de modalidades, onde a otimização para um objetivo pode prejudicar outros, é uma manifestação dos desafios na aprendizagem multiobjetivo. Metodologias anteriores de Multi-Objective Reinforcement Learning (MORL) muitas vezes sofrem com a escalabilidade limitada e a convergência inconsistente. Tais abordagens tradicionais frequentemente otimizam para um único ponto de equilíbrio, negligenciando a exploração de um conjunto de soluções Pareto-ótimas que permitiria flexibilidade na inferência.

Para superar essas limitações, a pesquisa propõe duas estratégias complementares: o próprio MapReduce LoRA e o Reward-aware Token Embedding (RaTE). O MapReduce LoRA atua como uma estrutura escalável de treinamento multi-recompensa que avança iterativamente a frente de Pareto em diferentes preferências. Já o RaTE permite um controle flexível e composível dos trade-offs de recompensa durante a inferência, através de incorporações de token cientes da recompensa.

O MapReduce LoRA opera em duas fases principais: “Map” e “Reduce”. Na fase de Map, especialistas em LoRA específicos para cada recompensa são treinados em paralelo, focando em otimizar dimensões de preferência individuais. A fase de Reduce então itera, mesclando esses especialistas usando interpolação controlada pelo usuário, e dobra o adaptador mesclado na base do modelo. Este processo avança continuamente a frente de Pareto.

Os experimentos realizados demonstraram que o MapReduce LoRA alcança desempenho de ponta em diversas tarefas e modalidades. Para a geração de texto-para-imagem, utilizando modelos como Stable Diffusion 3.5 Medium e FLUX.1-dev, foram observadas melhorias significativas. As pontuações aumentaram em 36,1% no GenEval, 4,6% no PickScore e 55,7% no OCR para um conjunto de métricas, e 32,7%, 4,3% e 67,1% em outro conjunto, respectivamente.

Além disso, na geração de texto-para-vídeo com o modelo HunyuanVideo, a qualidade visual melhorou em 48,1%, enquanto a qualidade do movimento subiu em 90,0%. Para tarefas de linguagem, como com o Llama-2 7B no teste “Helpful Assistant”, as métricas de utilidade e inofensividade melhoraram em 43,4% e 136,7%, respectivamente. Esses resultados estabelecem um novo estado da arte para o alinhamento de múltiplas preferências em diversas modalidades.

A estrutura do MapReduce LoRA e do RaTE permite uma personalização a posteriori eficiente, sem a necessidade de retreinamento completo dos modelos. Isso resulta em modelos generativos unificados que se destacam em múltiplas dimensões de recompensa, demonstrando uma forte generalização para recompensas não diretamente visadas e alinhamento robusto entre preferências. A pesquisa, publicada no repositório arXiv.org, aponta para um futuro onde modelos de IA podem equilibrar objetivos conflitantes de forma mais eficaz.

Com informações de ARXIV.

Com informações de ARXIV.

Redação:
Related Post

Privacidade e cookies: Este site utiliza cookies. Ao continuar a usar este site, você concorda com seu uso.