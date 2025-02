Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e o conteúdo exclusivo sobre a principal cobertura da IA. Descubra mais

Modelos linguísticos muito pequenos (SLM) podem superar os principais modelos lingüísticos (LLMMs) nas tarefas de explicação, de acordo com um Um novo estudo Pelo laboratório de Xangai AI. Os autores mostram que, com as ferramentas e técnicas certas de escalar o tempo de teste, o SLM com um bilhão de parâmetros pode superar o 405B LLM em valores de referência matemática complicados.

A capacidade de organizar o SLM com tarefas complexas de dispersão pode ser muito útil porque as empresas estão procurando novas maneiras de usar esses novos modelos em diferentes ambientes e aplicativos.

Explicação de varredura do tempo de teste

A escala de tempo (TTS) é o processo de fornecer cilas de computador adicionais ao LLMS enquanto concluem para melhorar seu desempenho em diferentes tarefas. Os principais modelos de explicação, como Openi O1 e Deepseek-R1, usam “TTS interno”, o que significa que eles são treinados para “pensar” criando lentamente um longo conjunto de tokens de cadeia (COT).

A abordagem alternativa é “fora do TTS”, onde a melhoria do desempenho do modelo (como o nome fala) é de fora. O TTS externo é adequado para remodelar a saída de uma tarefa para raciocinar sem mais ajustar. A configuração externa do TTS geralmente consiste em um “modelo de política”, que é o principal LLM que gera o processo e o modelo da recompensa do processo (PRM) que avalia as respostas do modelo de política. Esses dois componentes são conectados juntos por um método de amostragem ou pesquisa.

A configuração mais fácil é “Best-O-N”, onde um modelo de política gera mais respostas e o PRM seleciona uma ou mais melhores respostas para compilar uma resposta final. Métodos TTS externos mais avançados usam a pesquisa. Em uma “pesquisa de pacote”, o modelo quebra a resposta para mais etapas.

Para cada etapa, ele amostra mais respostas e as passa através do PRM. Ele então seleciona um ou mais candidatos adequados e gera a próxima etapa da resposta. E, em uma “árvore de busca diversificada do verificador” (DVTs), o modelo gera vários ramos de respostas para criar uma gama mais diversificada de respostas dos candidatos antes de sintetizá -los na resposta final.

Diferentes métodos de escala tempo de teste de tempo (fonte: arxiv)

Qual é a verdadeira estratégia de digitalização?

A escolha de uma verdadeira estratégia de TTS depende de vários fatores. Estudos autores realizaram pesquisas sistemáticas para diferentes modelos de política e PRM afetam a eficácia do método TTS.

Suas descobertas mostram que a eficiência depende em grande parte da política e dos modelos de PRM. Por exemplo, para pequenos modelos de política, pesquisas com base nos métodos de pesquisa superam o Best-O-n. No entanto, para as principais políticas, o Best-O-N é mais eficaz porque os modelos têm melhores opções de raciocínio e não precisam de um modelo de recompensa para verificar cada etapa de sua explicação.

Suas descobertas também mostram que a verdadeira estratégia do TTS depende dos problemas do problema. Por exemplo, para pequenos modelos de políticas com menos de 7B parâmetros, o Best-O-N atua melhor para problemas simples, enquanto a pesquisa no feixe funciona melhor para problemas sérios. Para políticas que possuem parâmetros de 7b e 32b, uma variedade de árvores pesquisa é bem feita para problemas simples e médios, e a pesquisa de feixe está melhor funcionando para problemas graves. Mas para grandes políticas (parâmetros 72b e muito mais), o Best-O-N é um método ideal para todos os níveis de dificuldade.

Por que modelos pequenos podem vencer modelos grandes

O SLMS supera os grandes modelos em matemática e AIME-24 (Fonte: Arxiv)

Com base nessas descobertas, os desenvolvedores podem criar estratégias TTS ideais de computação que levam em consideração o modelo de política, o PRM e os problemas com problemas para aproveitar melhor o orçamento para resolver o problema de resistência.

Por exemplo, os pesquisadores descobriram que o modelo LLALAM-3.2-3B com a estratégia TTS ideal de computação supera o LLALA-3.1-405B em Math-500 e AIME24, dois valores de referência complicados da matemática. Isso mostra que o SLM pode superar um modelo 135x maior quando usado pela estratégia TTS ideal de computação.

Em outras experiências, o modelo QWEN2.5 com 500 milhões de parâmetros pode exceder o GPT-4O com uma verdadeira estratégia de TTS computacional. Usando a mesma estratégia, a versão destilada de 1,5b do Deepseek-R1 superou o O1-Preview e o O1-Dom em Math-500 e AIME24.

Ao calcular o orçamento para treinamento e conclusão, os resultados mostram que o SLMS com escala ideal de computador pode superar modelos maiores com 100-1000x flops menores.

Os resultados da pesquisa mostram que o TTS TTS ideal melhora significativamente as possibilidades de explicar modelos de linguagem. No entanto, à medida que o modelo de política se torna maior, a melhoria do TTS diminui gradualmente.

“Isso sugere que a eficácia do TTS está diretamente relacionada às habilidades razoáveis ​​do modelo político”, relataram os pesquisadores. “Em particular, para modelos com poucas recursos de explicação, o teste de escala Accoute leva a uma melhoria significativa, enquanto para modelos com recursos fortes, a explicação é limitada”.

O estudo confirma que o SLMS pode ter um desempenho melhor do que os modelos maiores ao aplicar o tempo de tempo de escala no tempo. Embora este estudo se concentre em benchmarks matemáticos, os pesquisadores planejam expandir seu estudo para outras tarefas de explicações, como codificação e química.