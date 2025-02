Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e o conteúdo exclusivo sobre a principal cobertura da IA. Descubra mais

Modelos de idiomas podem generalizar melhor quando saem para criar suas próprias soluções e Um novo estudo Ele prova na Universidade de Hong Kong e na Universidade da Califórnia, Berkeley. As descobertas, relacionadas aos modelos de grandes idiomas (LLMs) e aos modelos do idioma da linguagem (VLMs), causam uma das principais crenças do LLM-A-para que os modelos requerem exemplos de treinamento na mão. De fato, os pesquisadores mostram que os modelos de treinamento em exemplos feitos à mão podem ter efeitos nocivos na capacidade do modelo de generalizar em informações sem precedentes.

SFT vs RL no treinamento de modelos

O ajuste fino controlado por longa data (SFT) foi o padrão de ouro para o treinamento LLMS e VLMS. Uma vez que o modelo é treinado com antecedência em texto e texto e imagens não processados, as empresas e os AIs de laboratório geralmente o possuem após o treinamento em um grande conjunto de dados fez exemplos manualmente na pergunta/resposta ou formato da solicitação/resposta. Após a SFT, o modelo pode passar nos estágios de treinamento adicionais, como Aprendizado de reforço do feedback humano (RLHF), onde o modelo tenta aprender preferências humanas implícitas com base em sinais como o ranking de respostas ou a simpatia/não gostar das respostas do modelo.

A SFT é útil para direcionar o comportamento dos modelos de acordo com o tipo de tarefa para a qual os criativos do modelo o desenharam. No entanto, a coleta de dados é um processo lento e caro, que é um shopping estreito para muitas empresas e laboratório.

Realizações recentes no LLMS criaram um interesse em abordar o puro aprendizado de fortalecimento (RL), onde o modelo recebeu uma tarefa e deixado para ensiná -lo sem exemplos artesanais. A instância mais importante é o DeepSeek-R1, um concorrente do OpenI O1, que costumava aprender o reforço para ensinar tarefas complexas de explicação.

Generalização e memória

Um dos principais problemas do sistema de aprendizado de máquina (ML) é o equipamento excessivo, onde o modelo funciona bem em seus dados de treinamento, mas não generaliza exemplos sem precedentes. Durante o treinamento, o modelo dá uma falsa impressão de que ele aprendeu a tarefa, enquanto na prática ele só se lembrava de seus exemplos de treinamento. Nos modelos grandes e complexos de IA, a separação da generalização da memória pode ser difícil.

O novo estudo está focado no treinamento de RL e SFT nas tarefas de ressonâncias textuais e visuais. Para uma explicação textual, o LLM, vestido com um conjunto de regras, deve ser capaz de generalizar para variantes dessas regras. Na explicação visual, o VLM deve permanecer consistente no design de tarefas sobre mudanças em diferentes aspectos da ingestão visual, como cor e aparência espacial.

Em seus experimentos, os pesquisadores usaram duas tarefas representativas. Primeiro foi o GeneralPoints, um valor de referência que avalia as capacidades aritméticas do modelo. O modelo recebe quatro cartões, como descrições ou imagens de texto, e é necessário para combiná -las para atingir o número de destino. Para estudar a generalização com base em pesquisadores governantes, os pesquisadores treinaram um modelo usando um conjunto de regras e depois estimaram -o usando uma segunda regra. Para a generalização visual, eles treinaram um modelo usando um cartões coloridos e testaram seu desempenho em cartões de outras cores e esquemas numerados.

Outra tarefa é V-arlque testa as possibilidades de raciocínio espacial do modelo no domínio de navegação do mundo aberto que usa uma ingestão visual realista. Essa tarefa também vem em versões de linguagem e visão puras. Os pesquisadores classificaram a generalização alterando os tipos de instruções e displays visuais nos quais o modelo foi treinado e testado.

Eles conduziram seus testes no Llam-3.2-Vision-11b, aquecendo o modelo treinando-o em um pequeno conjunto de dados SFT e criando versões separadas para cada tarefa e paradigma de treinamento. Para cada tarefa, eles reduziram seu treinamento em RL e SFT. O processo SFT treina um modelo em soluções artesanais adicionais, enquanto o RL permite um modelo de geração de muitas soluções para cada problema, avalie os resultados e treine as respostas corretas.

As descobertas mostram que o aprendizado de reforço melhora consistentemente o desempenho em exemplos drasticamente diferentes das informações de treinamento. Por outro lado, a SFT parece lembrar das regras de treinamento e não generaliza para exemplos fora da distribuição (OOD). Essas observações estão relacionadas a configurações apenas para configurações de texto e multimodais.

Os modelos vestidos da SFT são bem feitos em exemplos de treinamento (em distribuição), mostrando um mau desempenho em exemplos sem precedentes (distribuição externa) (Fonte: Arxiv)

Implicações em aplicativos no mundo real

Embora seus experimentos mostrem que a RL é melhor na generalização do que as SFTs do que as SFTs, os pesquisadores também descobriram que a SFT é útil para estabilizar o formato de saída do modelo e é crucial para permitir que a RL obtenha ganho de desempenho. Os pesquisadores descobriram que, sem a fase inicial da SFT, o treinamento da RL não alcançou resultados desejáveis.

Isso é ligeiramente diferente dos resultados obtidos por Deepseek-R1-Zero, que treinou o post em RL puro. Os pesquisadores sugerem que isso pode ser resultado de um modelo espinhal diferente que eles usaram em seus experimentos.

É claro que há muito potencial não utilizado nas abordagens de RL-Teski. Para casos de uso que possuem resultados verificáveis, a liberação do modelo independentemente pode levar a resultados inesperados que as pessoas não podiam fazer. Isso pode ser muito útil em configurações em que a criação de exemplos de manutenção à mão pode ser tediosa e cara.