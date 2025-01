O assistente de inteligência artificial da Deepseek fez grandes ondas na segunda -feira, tornando -se o aplicativo mais bem classificado na Apple Store e enviando ações de tecnologia em uma queda. Do que ele está falando?

O começo chinês – Up, Deepseek, surpreendeu o setor tecnológico com um novo modelo que rivaliza com as capacidades modelo de abertura mais recentes – com muito menos investimento e uso de chips com capacidade reduzida. Os Estados Unidos proíbem as exportações de pulgas de computadores de ponta para a China e limitar as vendas de equipamentos de fabricação de pulgas. Deepseek, com sede na cidade chinesa de Hangzhou, teria um estoque de pulgas NVIDIA A100 de alto desempenho em comparação com a proibição – para que seus engenheiros pudessem usá -los para desenvolver o modelo. Mas, em um avanço importante, a start-up diz que usou o NVIDIA H800 pulga muito menor para formar o novo modelo, apelidado de Deepseek-R1.

“Até agora, descobrimos que o sucesso de grandes empresas tecnológicas que trabalham na IA foi medido na quantidade de dinheiro que eles coletaram, não necessariamente em que tecnologia era”, explica Ashlesha Nesarikar, CEO da empresa AI Plano Intelligence, Inc. “Acho que prestaremos muito mais atenção ao que a tecnologia está subjacente aos diferentes produtos dessas empresas”.

Sobre o apoio do jornalismo científico

Se você apreciar este artigo, planeje apoiar nosso jornalismo que venceu o prêmio por subscrição. Ao comprar uma assinatura, você ajuda a garantir o futuro das histórias impressionantes sobre descobertas e idéias que moldam nosso mundo hoje.

Nos testes comuns de IA em matemática e codificação, Deepseek-R1 correspondeu às pontuações do modelo O1 da IA ​​aberta, de acordo com Risco. As empresas americanas não divulgam o custo de treinar seus próprios modelos de idiomas (LLM), os sistemas subjacentes a chatbots populares como o Chatppt. Mas o CEO da Openai Sam Altman disse a uma audiência do MIT em 2023 Esse treinamento ChatGPT-4 custa mais de US $ 100 milhões. O Deepseek-R1 é gratuito para os usuários baixarem, enquanto a versão comparável do ChatGPT custa US $ 200 por mês.

O número de US $ 6 milhões na Deepseek não reflete necessariamente o custo de construção de um LLM a partir de zero, diz Nesarikar; Esse custo pode representar um ajuste final desta versão mais recente. No entanto, ela diz, melhorar a eficiência energética aprimorada do modelo tornaria a IA mais acessível a mais pessoas em mais indústrias. O aumento da eficiência pode ser uma boa notícia em relação ao impacto ambiental da IA, porque o custo de calcular a geração de novos dados com um LLM é de quatro a cinco vezes maior que um mecanismo de pesquisa típico de solicitação.

Como requer menos poder de computação, o custo de execução do Deepseek-R1 é um décimo do custo de concorrentes semelhantes, explica Hanchang Cao, professor assistente que entra em sistemas de informação e gerenciamento de operações da Universidade Emory. “Para pesquisadores universitários ou startups, essa diferença de custo realmente significa muito”, diz Cao.

Deepseek alcançou sua eficácia de várias maneiras, explica Anil Annanthaswamy, autor de Por que as máquinas aprendem: matemática elegante por trás da IA ​​moderna. O modelo possui 670 bilhões de parâmetros ou variáveis ​​aprende durante o treinamento, tornando -o o maior modelo de código aberto até o momento, explica Annanthaswamy. Mas o modelo usa uma arquitetura chamada “mistura de especialistas”, para que apenas uma fração relevante desses parâmetros – bilhões de bilhões em vez de centenas de bilhões – seja ativada para uma determinada solicitação. Isso reduz os custos do computador. A Deepseek LLM também usa um método chamado atenção latente de várias cabeças; Em vez de prever uma resposta de palavras por palavra, ela gera várias palavras ao mesmo tempo.

O modelo também difere de outras pessoas como O1 da maneira como fortalece o aprendizado durante o treinamento. Embora muitos LLMs tenham um modelo externo de “crítica” que os execute, corrigindo erros e empurrando o LLM para respostas verificadas, o Deepseek-R1 usa um conjunto de regras internas para o modelo para ensiná-lo quais respostas possíveis. “Deepseek racionalizou esse processo”, diz Anshashaswamy.

Outro aspecto importante da DeepSeek-R1 é que a empresa criou o código por trás do produto de código aberto, diz Anshaswamy. (Os dados de treinamento permanecem proprietários.) Isso significa que as reclamações da empresa podem ser verificadas. Se o modelo for tão eficaz no nível do computador quanto a Deepseek afirma, ele diz, ele provavelmente abrirá novas maneiras para pesquisadores que usam a IA em seu trabalho para fazê -lo mais rápido e a um custo menor. Isso também permitirá mais pesquisas sobre o funcionamento interno do próprio LLM.

“Uma das grandes coisas foi essa fratura que abriu entre o mundo acadêmico e a indústria porque o mundo acadêmico não pôde trabalhar com esses modelos muito grandes ou fazer pesquisas de maneira significativa”, explica Anshaswamy. “Mas algo assim está ao alcance da universidade agora, porque você tem o código”.