Hoje, quase todos os produtos e modelo de IA de primeira linha usa arquitetura de transformadores. Grandes idiomas (LLMs), como GPT-4O, Llam, Gêmeos e Claude, são todos baseados em transformadores e outros aplicativos de IA, como fala de texto, reconhecimento automático de fala, criação de imagens e modelos de vídeo-video-videi Transformadores como sua tecnologia fundamental.

Como o hype em torno da IA ​​não diminuirá em breve, é hora de chegar aos transformadores, e é por isso que eu gostaria de explicar um pouco como eles funcionam, por que eles são tão importantes para o crescimento de soluções escaláveis ​​e por que elas são a espinha dorsal dos LLMs .

Transformadores são mais do que encontram -se

Em resumo, o transformador é a arquitetura da rede neural projetada para modelar as seqüências de dados, o que as torna ideais para tarefas como a tradução do idioma, a conclusão de frases, reconhecimento automático de fala e muito mais. Os transformadores de fato se tornaram arquitetura dominante para muitas dessas tarefas de modelar sequências, porque o mecanismo fundamental da atenção pode ser facilmente paraltado, permitindo proporções de massa ao treinar e tirar conclusões.

Originalmente introduzido em 2017, “Atenção é tudo que você precisa“Do pesquisador no Google, o transformador foi apresentado como uma arquitetura do despertador do codificador especialmente projetado para uma tradução linguística. No próximo ano, o Google lançou uma equipe de codificadores de dois caminhos da Transformers (BERT), que pode ser considerada um dos primeiros LLMs – embora agora seja considerado pequeno nos padrões atuais.

Desde então – e especialmente acelerado com a aparência do modelo GPT do Openi – a tendência tem treinado modelos cada vez maiores com vários dados, mais parâmetros e janelas de contexto mais longas.

Para facilitar essa evolução, houve muitas inovações como: hardware GPU mais avançado e melhor software de treinamento multi-GPU; técnicas como quantização e uma mistura de especialistas (MOE) para reduzir o consumo de memória; Novos otimizadores de treinamento, como Shampoo e Adamw; Técnicas para calcular a atenção efetivamente, como flashatão e cache KV. É provável que a tendência continue no futuro próximo.

A importância dos mosteiros em transformadores

Dependendo do aplicativo, o modelo do transformador segue a arquitetura do decodificador do codificador. O componente do codificador aprende uma exibição vetorial de dados que podem ser usados ​​para tarefas a jusante, como classificação e análise de sentimentos. O componente decodificador pega um vetor ou visão latente do texto ou imagem e o usa para gerar um novo texto, o que o torna útil para tarefas como a conclusão da frase e do resumo. Por esse motivo, muitos modelos de estado famosos -o -deart, essa família GPT, são apenas um decodificador.

Os códigos decodificam são combinados por ambos os componentes, tornando -os úteis para tradução e outras tarefas de sequência para seqüências. Tanto a arquitetura do codificador quanto do decodificador, o componente básico é uma camada de atenção, pois isso permite que o modelo mantenha o contexto das palavras que aparecem muito mais cedo no texto.

A atenção vem em dois sabores: independente e armazenamento. Independente é usado para registrar a relação entre palavras na mesma sequência, enquanto a gravação da relação entre as duas seqüências diferentes é usada por atenção inacrosa. A Páscoa conecta os componentes do codec e decodificadores no modelo e durante a tradução. Por exemplo, permite que a palavra em inglês “Strawberry” se referam à palavra francesa “FRAIS”. Matematicamente, e de forma independente e a atendimento cruzado são formas diferentes de multiplicação de matrizes, que podem ser feitas de maneira extremamente eficaz usando a GPU.

Devido à camada de atenção, os transformadores podem capturar melhor as relações entre palavras separadas por longas quantidades de texto, enquanto modelos anteriores, como redes neurais recorrentes (RNN) e memória de curto prazo de longo prazo (LSTM), estão perdendo um traço do contexto de palavras com palavras anteriores no texto.

O futuro do modelo

Atualmente, os transformadores são arquitetura dominante para muitos casos de uso que requerem LLMMs e se beneficiam da pesquisa e desenvolvimento mais altos. Embora pareça que isso não mudará em breve, uma classe diferente do modelo que recentemente ganhou interesse são os modelos de espaço de estado (SSMS) como o Mamba. Esse algoritmo altamente eficaz pode lidar com sequências de dados muito longas, enquanto os transformadores são limitados por uma janela de contexto.

Para mim, a aplicação mais emocionante de modelos de transformadores são os modelos multimodais. O GPT-4O da OpenAI, por exemplo, é capaz de lidar com o texto, o som e as imagens de outros provedores começam a seguir. As aplicações multimodais são muito diversas, variando de vídeo à clonagem de voz e segmentação de imagens (e muito mais). Eles também oferecem a oportunidade de tornar a IA mais acessível àqueles com deficiência. Por exemplo, uma pessoa cega pode servir bastante à capacidade de interagir através dos componentes de voz e áudio da administração multimodal.

É um espaço emocionante, com muito potencial para detectar novos casos de uso. Mas lembre -se de que, pelo menos no futuro próximo, é amplamente apoiado pela arquitetura do transformador.

Terrence Alsup é um cientista de dados mais alto em Finantra.