DeepSeek的廉價AI模型令人驚訝地挑戰了行業規範。盡管其DeepSeek V3模型僅擁有600萬美元的預培訓成本,但現實卻更加複雜。該公司的自我報告的數字省略了大量研究,改進,數據處理和基礎設施費用。
DeepSeek的V3模型利用創新技術:多鍵預測(MTP)用於同時單詞預測,專家的混合物(MOE)使用256個神經網絡,並且多頭潛在注意力(MLA) *為了改善關注關鍵句子元素的關注。
圖像:ensigame.com
但是,一份半分析報告顯示,投資要大得多。 DeepSeek運營著大量的計算基礎設施,利用多個數據中心的大約50,000個NVIDIA HOPPER GPU,這代表了服務器總投資約16億美元,運營成本接近9.44億美元。
圖像:ensigame.com
這與最低成本的最初主張相矛盾。 DeepSeek是中國對衝基金High-Flyer的子公司,擁有其數據中心,促進控製和快速創新。它的自資助性質增強了敏捷性。該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元。
圖像:ensigame.com
DeepSeek的實際AI開發投資超過5億美元。盡管它的精益結構有助於創新,但“革命預算”的敘述是誤導性的。與競爭對手的比較強調了差異:DeepSeek的R1型號為500萬美元,而Chatgpt 4的成本為1億美元。盡管提出了誇張的說法,但DeepSeek的成功強調了資金充足的獨立AI公司與已建立的巨頭有效競爭的潛力。
圖像:ensigame.com
最終,DeepSeek的成功源於大量投資,技術進步和熟練的團隊,而不是奇跡般的預算。但是,即使以其真正的成本,它仍然比競爭對手便宜得多。