Modelos de explicações como Openi O1 e Deepseek-R1 têm um problema: eles superam. Faça a eles uma pergunta simples como “O que é 1+1?” E eles pensarão alguns segundos antes de responder.

Idealmente, como as pessoas, os modelos de IA devem poder dizer quando dar uma resposta direta e quando gastar tempo e recursos extras no motivo antes de responder. E Nova técnica Apresentado por pesquisadores sobre Meta ai E Universidade de Illinois Chicago Procure modelos de alocação de orçamento com base na dificuldade de consultas. Isso resulta em respostas mais rápidas, custos reduzidos e melhor distribuição de recursos.

Deepseek Solving 1+1

Explicação cara

Os grandes modelos linguísticos (LLMs) podem melhorar seu desempenho nos problemas das explicações quando produzem cadeias mais longas de explicação, que são frequentemente chamadas de “pensamento em cadeia” (COT). O sucesso do COT levou a toda uma série de técnicas de escala de tempo de conclusão de que o modelo modelando o modelo para “pensar mais” sobre o problema, os produtos e a visão geral das respostas e escolher o melhor.

Uma das principais formas usadas nos modelos de explicação é gerar várias respostas e selecionar a mais repetida, também conhecida como “a maioria da maioria” (MV). O problema dessa abordagem é que o modelo aceita comportamento uniforme, tratando cada prompt como um problema difícil e consome recursos desnecessários para gerar várias respostas.

Explicação inteligente

O novo trabalho propõe uma série de técnicas de treinamento que tornam os modelos de raciocínio mais eficazes na resposta. O primeiro passo é o “voto consecutivo” (SV), onde o modelo interrompe o procedimento de explicação assim que a resposta aparecer com um certo número de vezes. Por exemplo, o modelo é necessário para gerar no máximo oito respostas e seleciona uma resposta que aparece pelo menos três vezes. Se o modelo tiver sido mencionado acima, a investigação simples, é provável que as três primeiras respostas sejam semelhantes, o que iniciará uma parada precoce, economizando tempo e calculando recursos.

Seus experimentos mostram que St. supera o clássico MV em problemas de competição matemática ao gerar o mesmo número de respostas. No entanto, o SV requer instruções adicionais e geração de token, o que a coloca em comparação com a MV em relação à proporção de token-token.

SV supera a MV para o número de respostas, mas corresponde ao número de token (fonte: arxiv)

A segunda técnica, a “votação seqüencial adaptativa” (ASV), melhora o SV exige um modelo para examinar o problema e gerar mais respostas apenas quando o problema é difícil. Para problemas simples (como 1+1 consultas), o modelo simplesmente gera uma resposta sem passar pelo processo de votação. Isso torna o modelo muito mais eficaz na solução de problemas simples e complexos.

Aprendizado de reforço

Embora o SV e o ASV melhorem a eficiência do modelo, eles exigem muitos dados no artesanal. Para aliviar esse problema, os pesquisadores sugerem “otimizar uma política orçamentária limitada” (IBPO), um algoritmo para o reforço de aprendizado que ensina um modelo para adaptar a duração do traço de explicação com base na dificuldade das consultas.

O IBPO foi projetado para permitir que o LLMS otimize suas respostas, enquanto permanece dentro do limite para a conclusão. O algoritmo RL permite que o modelo supere os ganhos obtidos pelo treinamento de dados artesanais por geração permanente de traços de ASV, avaliando a resposta e selecionando os resultados que fornecem a resposta correta e o orçamento ideal de conclusão.

Seus experimentos mostram que o IBPO melhora uma frente de Pareto, o que significa que, para um orçamento de conclusão fixa, um modelo vestido no IBPO supera outras linhas básicas.

O IBPO (círculos verdes) supera outras linhas básicas na frente de Pareto (fonte: arxiv)

As descobertas chegam ao fundo dos pesquisadores que alertam que os modelos atuais de IA atingem a parede. As empresas estão lutando para encontrar dados sobre treinamento de qualidade e explorar métodos alternativos para melhorar seus modelos.

Uma solução promissora é aprender o reforço, onde o modelo é fornecido e permite encontrar suas próprias soluções em oposição à configuração fina supervisionada (SFT), onde o modelo é treinado em exemplos artesanais.

Surpreendentemente, o modelo geralmente encontra soluções nas quais as pessoas não pensaram. Esta é uma fórmula que parece funcionar bem para o Deepseek-R1, que desafiou o domínio do laboratório de IA com sede nos EUA.

Os pesquisadores observam que “os métodos baseados na fundação e na SFT estão lutando com a melhoria e a eficiência absoluta, apoiando a suposição de que a própria SFT não permite as possibilidades de auto-instalação. Essa observação é parcialmente suportada por um trabalho concomitante, sugerindo que esse comportamento de auto-instalação é automaticamente aparecido durante a RL, não criado manualmente por movimentação ou SFT. “