DeepSeek的廉价AI模型令人惊讶地挑战了行业规范。尽管其DeepSeek V3模型仅拥有600万美元的预培训成本,但现实却更加复杂。该公司的自我报告的数字省略了大量研究,改进,数据处理和基础设施费用。
DeepSeek的V3模型利用创新技术:多键预测(MTP)用于同时单词预测,专家的混合物(MOE)使用256个神经网络,并且多头潜在注意力(MLA) *为了改善关注关键句子元素的关注。
图像:ensigame.com
但是,一份半分析报告显示,投资要大得多。 DeepSeek运营着大量的计算基础设施,利用多个数据中心的大约50,000个NVIDIA HOPPER GPU,这代表了服务器总投资约16亿美元,运营成本接近9.44亿美元。
图像:ensigame.com
这与最低成本的最初主张相矛盾。 DeepSeek是中国对冲基金High-Flyer的子公司,拥有其数据中心,促进控制和快速创新。它的自资助性质增强了敏捷性。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元。
图像:ensigame.com
DeepSeek的实际AI开发投资超过5亿美元。尽管它的精益结构有助于创新,但“革命预算”的叙述是误导性的。与竞争对手的比较强调了差异:DeepSeek的R1型号为500万美元,而Chatgpt 4的成本为1亿美元。尽管提出了夸张的说法,但DeepSeek的成功强调了资金充足的独立AI公司与已建立的巨头有效竞争的潜力。
图像:ensigame.com
最终,DeepSeek的成功源于大量投资,技术进步和熟练的团队,而不是奇迹般的预算。但是,即使以其真正的成本,它仍然比竞争对手便宜得多。