Pesquisadores apresentaram recentemente a Hipótese do Piggyback como explicação para o desvio emergente em modelos de linguagem de grande escala (LLMs). Esse fenômeno ocorre quando o ajuste fino em tarefas específicas provoca desalinhamento em domínios de teste não relacionados semanticamente. Segundo estudo publicado no arXiv, a hipótese sugere que tokens do modelo podem carregar comportamentos ajustados para consultas fora do domínio original.
O trabalho demonstrou que pequenas alterações nos prefixos das consultas de usuário ou a substituição das representações de prefixo por aquelas de um modelo não ajustado podem restaurar o alinhamento sem modificar a consulta original. A partir dessa descoberta, os pesquisadores desenvolveram o Token-Regularized Finetuning (TReFT), técnica que regula representações de tokens específicos durante o treinamento para mitigar o desalinhamento emergente.
Os resultados indicaram que o TReFT reduziu significativamente o desalinhamento emergente, preservando o aprendizado no domínio original. Em experimento com o modelo Llama-3.1-8B ajustado para o domínio legal, a técnica alcançou redução de 33,5% no desalinhamento em comparação com a interleaving de dados. Além disso, mostrou-se eficaz em outros cenários de ajuste fino, como abstenção e uso de ferramentas, diminuindo a generalização fora do tópico em 54,3% em média.
As descobertas ressaltam que os modelos de linguagem podem aprender e generalizar de maneiras não intencionais, apontando para a necessidade de um ajuste fino mais controlado. O estudo também destaca a importância de pesquisas adicionais sobre como características de entrada compartilhadas influenciam o comportamento dos modelos em diferentes domínios.