Nature连发3篇文章惊呼DeepSeek震惊世界

DeepSeek | 2025-04-04 19:40

　　DeepSeek是一款基于AI技术的智能搜索引擎，结合深度学习与自然语言处理，提供精准、高效的搜索体验。探索DeepSeek，感受未来智能搜索的无限可能！（LLM），在全世界科技界掀起波澜，这两款模型的性能可与美国科技巨头开发的主流工具相媲美，但研发成本和所需算力却只是其一小部分。

　　2025 年 1 月 20 日，DeepSeek 发布了DeepSeek-R1，这是一个部分开源（训练数据未公开，因此并非完全开源）的“推理”模型，能够以与 OpenAI 于 2024 年年底发布的最先进的专注于“推理”的大语言模型GPT-o1相近的水平解决一些科学问题。

　　国际顶尖学术期刊Nature在其官网连续发布了 3 篇文章报道 DeepSeek。

　　该文章指出，科学家们正在纷纷涌入 DeepSeek，从 AI 专家到数学家再到认知神经学家，他们为 DeepSeek-R1 的高性能和低成本所惊叹。

　　该文章指出，来自中国的便宜的、开放的 AI 模型 DeepSeek 让科学家们兴奋不已，DeepSeek-R1 执行推理任务的水平与 OpenAI 的 GPT o1 相当，而关键是，DeepSeek-R1 向研究人员开源。科学界认为，DeepSeek 的开放非常令人震惊，相比之下，OpenAI 推出的 GPT o1 以及最新成果 o3，基本上都是黑匣子。

　　当然，DeepSeek-R1 令人印象深刻的还包括其超低成本，DeepSeek 尚未公布训练 DeepSeek-R1 的全部成本，但据估计，训练 DeepSeek-R1 所需的算力租赁费用约为 600 万美元，相比之下，Meta 公司训练 Llama 3.1 405B 的算力是其 11 倍，训练成本超过 6000 万美元。尽管美国限制了中国公司获取用于人工智能的最先进的计算机芯片，但 DeepSeek-R1 还是成功了，这也说明了高效利用资源比单纯依靠计算规模更为重要。这也表明了美国在人工智能领域的建立的优势正在快速缩小。

　　此外，使用 DeepSeek-R1 界面的用户只需支付运行 ChatGPT o1 费用的不到三十分之一（10美元 vs 370 美元）。此外，DeepSeek 还创建了 DeepSeek-R1 的迷你“蒸馏”版本，以便算力有限的研究人员也能使用该模型。

　　该文章分析了中国是如何创造出震惊世界的 AI 模型 DeepSeek，文章中指出，政策支持、大量资金，以及大量的 AI 专业人才，帮助中国企业建立了先进的大语言模型。

　　如果 DeepSeek-R1 的表现让中国以外的许多人感到惊讶，但国内的研究人员表示，这家初创企业的成功在意料之中，也符合政府成为全球人工智能（AI）领导者的雄心。

　　中国科学院计算技术研究所副所长陈云霁研究员表示，鉴于中国在开发大语言模型的公司上投入了巨额风险资本，且拥有众多在科学、技术、工程或数学领域（包括人工智能）拥有博士学位的人才，像 DeepSeek 这样的公司在中国出现是不可避免的。即便不是 DeepSeek，中国也会有其他大语言模型能够做出一番成就。

　　1 月 29 日，科技巨头阿里巴巴发布了其迄今为止最先进的大语言模型——Qwen2.5-Max（通义千问旗舰版），并称其性能优于 GPT-4o、DeepSeek-V3 以及 Llama-3.1-405B。而上周，月之暗面联合字节跳动发布了新的推理模型Kimi 1.5和Kimi 1.5 1.5-pro，并称其在某些基准测试中的表现优于 GPT-o1。