O mundo da inteligência artificial foi descascado na semana passada quando DeepseekA startup chinesa IA anunciou seu mais recente modelo de idioma que parece corresponder aos recursos dos principais sistemas de IA dos EUA com um sistema de trabalho. O anúncio lançou generalizado venda de mercado Isso foi excluído por quase US $ 200 bilhões do valor de mercado da NVIDIA e causou uma discussão tumultuada sobre o futuro do desenvolvimento da IA.

A narrativa que parecia rapidamente sugeriu que Deepsek estava basicamente perturbando a economia da construção de sistemas avançados de IA, supostamente alcançados com apenas US $ 6 milhões o que as empresas americanas gastaram para alcançar bilhões. Essa interpretação enviou ondas de choque pelo vale do Silício, onde as empresas se amam Abrir,,, Antropicamentee Google Eles justificaram enormes investimentos em infraestrutura de computadores, conforme necessário, para manter suas bordas tecnológicas.

Mas no meio de uma turbulência do mercado e um título sem fôlego, Dario AmodiO co-fundador da Anthrop e um dos pesquisadores pioneiros por trás dos grandes idiomas de hoje, divulgou uma análise detalhada que oferece uma perspectiva provável sobre realizações profundas. Dele blog Ele passa pela histeria fornecer algumas idéias importantes sobre o que realmente alcançou o DeepSeek e o que isso significa para o futuro do desenvolvimento da IA.

Aqui estão quatro insights principais da análise de Amodei que transformam nossa compreensão do anúncio do Deepseek:

1. A narrativa do ‘Modelo $ 6 milhões’ perde um contexto -chave

Relatou Deepseekov Custos de desenvolvimento Segundo Amodei, é necessário examinar as lentes mais amplas. EM Sua análisecausa diretamente uma interpretação popular:

“Deepseek não trabalha por US $ 6 milhões, o que nos custou as empresas de IA. “Só posso falar pelo Anthrop, mas Claude, 3,5 sonetos, é um modelo de tamanho médio que custou alguns US $ 10 milhões para treinar (não vou dar o número exato). Além disso, 3,5 sonetos não está vestido de forma alguma que incluídos incluídos Um modelo maior ou mais caro (ao contrário de alguns rumores).

Essa descoberta chocante move basicamente uma narrativa sobre a relação custo -benefício da Deepseek. Quando ele considera Soneto Ele está vestido de 9 a 12 meses atrás e ainda supera o modelo de Deepseek em muitas tarefas, a conquista parece mais de acordo com o progresso natural do custo do desenvolvimento da IA, não com um avanço revolucionário.

Tempo e contexto também são importantes. Após as tendências históricas da redução dos custos no desenvolvimento da IA ​​- Amodei estima que aproximadamente 4x por ano – o custo dos custos profundos parece estar principalmente em tendência, não dramaticamente na frente da curva.

2. Deepseek-V3, não R1, foi uma verdadeira conquista técnica

Enquanto mercados e a mídia se concentravam intensamente em Deepseek Modelo R1Amodei ressalta que uma inovação mais significativa da empresa chegou mais cedo:

“Deepseek-V3 De fato, foi uma inovação real e o que precisava ser feito para as pessoas perceberem há um mês (nós definitivamente fizemos). Como modelo anterior, parece estar abordando o desempenho dos principais modelos nos EUA em algumas tarefas importantes, custando muito menos para o treinamento. “

A diferença entre V3 e R1 É essencial para entender o profundo progresso tecnológico de Deepseek. V3 representou a verdadeira inovação de engenharia, especialmente no gerenciamento do modelo “Cache de chave e valor“E empurrando as fronteiras” “Uma mistura de especialistas“Método.

Esse insight ajuda a explicar por que a reação dramática do mercado ao R1 pode ser configurada incorretamente. O R1 basicamente adicionou oportunidades de aprendizado de reforço na Fundação V3 – um passo que atualmente dá com seus modelos.

3. Um total de investimento corporativo revela uma imagem diferente

Talvez o aspecto mais bonito da análise de Amodei esteja relacionado ao investimento total da Deepseek no desenvolvimento da IA:

“É relatado – não podemos ter certeza de que é verdade – que Deepseek realmente teve 50.000 chips para produzir um tanqueO que eu acho que dentro do fator ~ 2-3x é o que as principais empresas americanas AI têm. Esses 50.000 chips de tanque custam a ordem de ~ 1b. Assim, o consumo total da DeepSeek como empresa (diferente do consumo para o treinamento de um único modelo) não é diferente de nós do laboratório de IA. “

Essa revelação está revertendo drasticamente uma narrativa sobre a eficiência de recursos da Deepseek. Embora a empresa tenha alcançado resultados impressionantes com o treinamento individual do modelo, seu investimento total no desenvolvimento da IA ​​é aproximadamente comparável aos colegas dos EUA.

A diferença entre o custo do treinamento do modelo e o total de investimentos corporativos enfatiza a importância constante de recursos significativos no desenvolvimento da IA. Isso sugere que, embora a eficiência da engenharia possa melhorar, o restante competitivo na IA-U requer um investimento de capital significativo.

4. O “ponto de cruzamento” atual é temporário

Amodei descreve o momento presente no desenvolvimento da IA ​​como um único, mas transitório:

“Portanto, estamos em um” ponto de cruzamento “interessante, onde é temporário que várias empresas possam produzir bons modelos de raciocínio. Isso deixará rapidamente de ser verdadeiro porque todos avançam para a curva de recortes nesses modelos”.

Esta observação fornece um contexto essencial para entender o estado atual da competição de IA. A capacidade de mais empresas de obter resultados semelhantes na possibilidade de explicação é um fenômeno temporário, não um novo status quo.

As implicações são significativas para o futuro do desenvolvimento da IA. À medida que as empresas continuam aumentando seus modelos, especialmente no campo de intensos recursos para aprender o reforço, o campo provavelmente diferirá mais uma vez com base em quem pode investir mais em treinamento e infraestrutura. Isso sugere que, embora o Deepseek tenha alcançado um ponto de virada impressionante, ele não mudou basicamente a economia a longo prazo do desenvolvimento avançado da IA.

O custo certo de construção da IA: o que a análise de Amodi revela

A análise detalhada de Dari de realizações profundas é reduzida por várias semanas de especulação de mercado para expor a economia real da construção de sistemas avançados de IA. Dele blog Ele também desmantelou sistematicamente o pânico e o entusiasmo que se seguiu ao anúncio da Deepseek, mostrando que o custo de um modelo de US $ 6 milhões se encaixa na marcha estável de desenvolvimento de IA.

Os mercados e a mídia gravitam para narrativas simples, e a história da empresa chinesa subestimou drasticamente o custo do desenvolvimento da AI AI Ai se mostrou irresistível. No entanto, o colapso da Amodei revela uma realidade mais complexa: o investimento total da Deepseek, um bilhão de dólares em hardware de computador, reflete o consumo de seus colegas americanos.

Este momento do custo dos custos entre nós e o desenvolvimento chinês da IA ​​indica o que o Amodei chama “ponto de cruzamento” – Uma janela temporária onde mais empresas podem obter resultados semelhantes. Sua análise sugere que essa janela fechará porque os recursos de IA estão progredindo e os requisitos para o treinamento se intensificam. É provável que o campo retorne à organização favorita com os recursos mais profundos.

A construção de uma IA avançada permanece caro empreendimento, e o exame cuidadoso de Amodi mostra por que a medição de seu custo certo requer o teste de toda a extensão do investimento. Sua desconstrução metódica da conquista da Deepseek pode, em última análise, provar ser mais significativa do que o anúncio inicial que incentivou essa turbulência nos mercados.