A Sociedade de Inteligência Artificial Chinesa (AI) Deepseek enviou Ondas de choque através da comunidade tecnológicaCom a publicação de modelos de IA extremamente eficazes que podem competir com empresas americanas avançadas, como OpenAI e Antrópico.





Fundado em 2023, Deepseek a obteve seus resultados Com uma fração do dinheiro e o poder do computador de seus concorrentes.





O Modelo R1 R1 da Deepseek, publicado na semana passada, causou emoção entre os pesquisadores, choque entre investidores e respostas pesadas da IA. A empresa seguiu em 28 de janeiro com um modelo Isso pode funcionar com imagens e texto.





Então, o que Deepseek faz e como ele fez isso?

O que Deepseek fez

Em dezembro, Deepseek publicou seu Modelo v3. É um modelo de linguagem “padrão” “padrão” “padrão” muito poderoso que funciona em um nível semelhante ao OpenAI GPT-4O e Claude 3.5 do Antrópico.





Enquanto esses modelos estão sujeitos a erros e Às vezes, invente seus próprios fatosEles podem realizar tarefas, como responder a perguntas, escrever testes e gerar código de computador. Sobre Alguns testes Desde a solução de problemas e o raciocínio matemático, eles ficam melhores que o humano médio.





V3 foi treinado em um Custo reportado Cerca de US $ 5,58 milhões. Isso é consideravelmente mais barato que o GPT-4, por exemplo, que custa Mais de US $ 100 milhões crescer.





Deepseek também afirma ter treinado V3 usando cerca de 2.000 chips de computador especializados, em particular GPU H800 fabricado pela NVIDIA. Ainda é muito menor que outras empresas, o que pode ter usado Até 16.000 As pulgas H100 mais poderosas.





Em 20 de janeiro, Deepseek publicou outro modelo, chamado R1. É o chamado modelo de “raciocínio”, que tenta resolver problemas passo a passo complexos. Esses modelos parecem ser melhores em muitas tarefas que exigem um contexto e têm várias peças interdependentes, como a leitura de entendimento e o planejamento estratégico.





O modelo R1 é uma versão modificada do V3, modificada com uma técnica chamada Learning Learning. R1 parece funcionar em um nível semelhante a O1 do Openaipublicado no ano passado.





O Deepseek também usou a mesma técnica para fazer versões de “raciocínio” de pequenos modelos de código aberto que podem funcionar em computadores domésticos.





Esta versão despertou um enorme aumento no interesse em Deepseek, que aumentou a popularidade de seu Aplicativo de chatbot alimentado por v3 e gatilho a preço maciço Em ações tecnológicas, os investidores reavaliam a indústria da IA. No momento de escrever o presente perdeu cerca de 600 bilhões de dólares em valor.





Como o Deepseek fez isso

Os avanços do Deepseek foram maior eficiência: obtenha bons resultados com menos recursos. Em particular, os desenvolvedores Deepseek foram os pioneiros de duas técnicas que podem ser adotadas pelos pesquisadores da IA ​​de maneira mais ampla.





O primeiro tem a ver com uma idéia matemática chamada “raridade”. Os modelos de IA têm muitos parâmetros que determinam suas respostas às entradas (a V3 tem cerca de 671 bilhões), mas apenas uma pequena fração desses parâmetros é usada para uma determinada entrada.





No entanto, prever os parâmetros necessários não é fácil. A Deepseek usou uma nova técnica para fazer isso e, em seguida, formou apenas esses parâmetros. Consequentemente, seus modelos exigiram muito menos treinamento do que uma abordagem convencional.





A outra dica diz respeito a como o V3 armazena informações na memória do computador. O Deepseek encontrou uma maneira inteligente de comprimir dados relevantes, por isso é mais fácil armazenar e acessar rapidamente.





O que isso significa

Modelos e técnicas Deepseek foram publicados em grátis Minha licençaIsso significa que qualquer pessoa pode baixá -los e modificá -los.





Embora isso possa ser uma má notícia para certas empresas de IA – cujos lucros podem ser corroídos pela existência de modelos poderosos disponíveis gratuitamente – essa é uma excelente notícia para a comunidade de pesquisa mais ampla da IA.





Atualmente, grande parte da pesquisa sobre IA requer acesso a grandes quantidades de recursos do computador. Pesquisadores como eu, que estão sediados em universidades (ou em qualquer lugar, exceto grandes empresas tecnológicas), tiveram uma capacidade limitada para realizar testes e experiências.





Modelos e técnicas mais eficazes modificam a situação. A experimentação e o desenvolvimento agora podem ser muito mais fáceis para nós.





Para os consumidores, o acesso à IA também pode se tornar mais barato. Mais modelos de IA podem ser executados nos próprios dispositivos de usuários, como laptops ou telefones, em vez de executar “na nuvem” para taxas de assinatura.

Para pesquisadores que já têm muitos recursos, mais eficiência podem ter menos efeito. Não está claro se a abordagem Deepseek ajudará a criar modelos com melhor desempenho como um todo, ou simplesmente modelos mais eficazes.

