O lançamento desta semana do R1 pela DeepSeek foi um divisor de águas no campo da inteligência artificial. Ninguém pensou que uma startup chinesa seria a primeira a abandonar o modelo de pensamento que corresponde ao o1 da OpenAI e abri-lo (de acordo com a missão original da OpenAI) ao mesmo tempo.

As empresas podem baixar facilmente os pesos R1 por meio do Hugging Face, mas o acesso nunca foi um problema: mais de 80% das equipes usam ou planejam usar modelos abertos. A implantação é a verdadeira culpada. Se você usa serviços hiperescaladores, como Vertex AI, você fica preso a uma nuvem específica. Por outro lado, se você for sozinho e construir internamente, haverá o desafio das restrições de recursos, porque você terá que configurar uma dúzia de componentes diferentes apenas para começar, e muito menos otimizar ou dimensionar o downstream.

Para enfrentar este desafio, Y Combinator e SenseAI são suportados Deslocamento do tubo alimenta uma plataforma ponta a ponta que permite às empresas treinar, implantar e dimensionar modelos de IA generativos de código aberto – LLMs, modelos de visão, modelos de áudio e modelos de imagem – em qualquer nuvem ou GPU local. A empresa compete com um domínio em rápido crescimento que inclui Baseten, Domino Data Lab, Together AI e Simplismar.

A principal proposta de valor? O Pipeshift usa um mecanismo de inferência modular que pode ser rapidamente otimizado para velocidade e eficiência, ajudando as equipes não apenas a implantar 30 vezes mais rápido, mas a conseguir mais com a mesma infraestrutura, levando a uma economia de custos de até 60%.

Imagine executar quatro GPUs para inferência com apenas uma.

Gargalo de orquestração

Quando você precisa executar modelos diferentes, reunir uma pilha funcional de MLOps dentro de uma empresa — desde acesso computacional, treinamento e ajuste até implementação e monitoramento em nível de produção — torna-se um problema. Você precisa configurar 10 componentes e instâncias de inferência diferentes para fazer tudo funcionar e, em seguida, investir milhares de horas de engenharia até mesmo nas menores otimizações.

“Existem vários componentes no mecanismo de inferência”, disse Arko Chattopadhyay, cofundador e CEO da Pipeshift, ao VentureBeat. “Cada combinação desses componentes cria um mecanismo distinto com desempenho diferente para a mesma carga de trabalho. Identificar a combinação ideal para maximizar o ROI requer semanas de experimentação repetida e ajuste fino das configurações. Na maioria dos casos, pode levar anos para que as equipes internas desenvolvam pipelines que possam permitir flexibilidade e modularização da infraestrutura, deixando as empresas para trás no mercado enquanto acumulam uma enorme dívida tecnológica.”

Embora existam startups que oferecem plataformas para implantação de modelos abertos em ambientes de nuvem ou locais, Chattopadhyay diz que a maioria delas são corretores de GPU que oferecem soluções de inferência exclusivas. Como resultado, eles mantêm instâncias de GPU separadas para diferentes LLMs, o que não ajuda quando as equipes desejam economizar custos e otimizar o desempenho.

Para corrigir isso, Chattopadhyay iniciou o Pipeshift e desenvolveu uma estrutura chamada Arquitetura Modular para Clusters de Inferência Baseados em GPU (MAGIC), com o objetivo de distribuir pilhas de inferência em diferentes partes plug-and-play. O artigo criou um sistema semelhante ao Lego que permite às equipes configurar o conjunto certo de inferências para suas cargas de trabalho, sem o incômodo da engenharia de infraestrutura.

Dessa forma, a equipe pode adicionar ou substituir rapidamente diferentes componentes de inferência para montar um mecanismo de inferência personalizado que possa aproveitar melhor a infraestrutura existente para atender às expectativas de custo, rendimento ou até mesmo escalabilidade.

Por exemplo, a equipe poderia configurar um sistema de inferência unificado, onde vários LLMs específicos de domínio poderiam ser executados com troca a quente em uma única GPU, fazendo uso total dele.

Executando quatro cargas de trabalho de GPU em uma

Como afirmar oferecer uma solução de terminação modular é uma coisa, fornecê-la é outra completamente diferente, o fundador da Pipeshift foi rápido em apontar os benefícios da oferta da empresa.

“Em termos de custos operacionais… o MAGIC permite que você execute LLMs como o Llama 3.1 8B a> 500 tokens/s em um conjunto específico de GPUs Nvidia sem quantização ou compactação de modelo”, disse ele. “Isso desbloqueia grandes reduções de custos de escalonamento, já que as GPUs agora podem lidar com cargas de trabalho que são da ordem de 20 a 30 vezes maiores do que poderiam alcançar originalmente usando plataformas nativas oferecidas por provedores de nuvem.”

O CEO lembrou que a empresa já trabalha com 30 empresas num modelo baseado em licença anual.

Um deles é um varejista da Fortune 500 que inicialmente usou quatro instâncias de GPU independentes para executar quatro modelos abertos e ajustados para seu suporte automatizado e fluxos de trabalho de processamento de documentos. Cada um desses clusters de GPU foi dimensionado de forma independente, adicionando uma enorme sobrecarga.

“O ajuste fino em grande escala não era possível à medida que os conjuntos de dados cresciam e todos os pipelines suportavam cargas de trabalho de GPU única, exigindo que você carregasse todos os dados de uma vez. Além disso, não havia suporte para escalonamento automático com ferramentas como AWS Sagemaker, dificultando a garantia do uso ideal da infra, obrigando a empresa a pré-autorizar cotas e reservar capacidade para uma escala teórica que atinge apenas 5% do tempo, ” observou Chattopadhyay.

É interessante que após a mudança para a arquitetura modular do Pipeshift, todos os ajustes finos foram reduzidos a uma única instância de GPU que os atendeu em paralelo, sem particionamento de memória ou degradação do modelo. Isso reduziu a necessidade de executar essas cargas de trabalho de quatro GPUs para apenas uma GPU.

“Sem otimizações adicionais, fomos capazes de dimensionar os recursos da GPU a ponto de servir tokens de inferência cinco vezes mais rápidos e poder lidar com quatro vezes a escala”, acrescentou o CEO. No geral, ele disse que a empresa obteve um cronograma de implementação 30 vezes mais rápido e uma redução de 60% nos custos de infraestrutura.

Com uma arquitetura modular, o Pipeshift pretende se posicionar como a plataforma ideal para implementar todos os modelos de IA de código aberto de ponta, incluindo o DeepSeek R-1.

No entanto, isto não será fácil, uma vez que os concorrentes continuam a desenvolver as suas ofertas.

Por exemplo, a Simplismart, que arrecadou US$ 7 milhões há alguns meses, adota uma abordagem de inferência semelhante, otimizada por software. Provedores de serviços em nuvem como Google Cloud e Microsoft Azure também estão fortalecendo suas ofertas, embora Chattopadhyay acredite que esses CSPs serão mais parceiros do que concorrentes no longo prazo.

“Somos uma plataforma para ferramentas e orquestração de cargas de trabalho de IA, o que o Databricks foi para inteligência de dados”, explicou. “Na maioria dos cenários, a maioria dos provedores de nuvem se converterá em parceiros GTM em estágio de crescimento devido ao tipo de valor que seus clientes poderão obter do Pipeshift em suas nuvens AWS/GCP/Azure”.

Nos próximos meses, o Pipeshift também apresentará ferramentas para ajudar as equipes a construir e dimensionar seus conjuntos de dados, enquanto avaliam e testam modelos. Isso acelerará exponencialmente o ciclo de experimentação e preparação de dados, permitindo que os usuários aproveitem a orquestração de forma mais eficaz.