DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!(LLM),在全世界科技界掀起波澜,这两款模型的性能可与美国科技巨头开发的主流工具相媲美,但研发成本和所需算力却只是其一小部分。
2025 年 1 月 20 日 ,DeepSeek 发布了DeepSeek-R1,这是一个部分开源(训练数据未公开,因此并非完全开源)的“推理”模型,能够以与 OpenAI 于 2024 年年底发布的最先进的专注于“推理”的大语言模型GPT-o1相近的水平解决一些科学问题。
国际顶尖学术期刊Nature在其官网连续发布了 3 篇文章报道 DeepSeek。
该文章指出,科学家们正在纷纷涌入 DeepSeek,从 AI 专家到数学家再到认知神经学家,他们为 DeepSeek-R1 的高性能和低成本所惊叹。
该文章指出,来自中国的便宜的、开放的 AI 模型 DeepSeek 让科学家们兴奋不已,DeepSeek-R1 执行推理任务的水平与 OpenAI 的 GPT o1 相当,而关键是,DeepSeek-R1 向研究人员开源。科学界认为,DeepSeek 的开放非常令人震惊,相比之下,OpenAI 推出的 GPT o1 以及最新成果 o3,基本上都是黑匣子。
当然,DeepSeek-R1 令人印象深刻的还包括其超低成本,DeepSeek 尚未公布训练 DeepSeek-R1 的全部成本,但据估计,训练 DeepSeek-R1 所需的算力租赁费用约为 600 万美元,相比之下,Meta 公司训练 Llama 3.1 405B 的算力是其 11 倍,训练成本超过 6000 万美元。尽管美国限制了中国公司获取用于人工智能的最先进的计算机芯片,但 DeepSeek-R1 还是成功了,这也说明了高效利用资源比单纯依靠计算规模更为重要。这也表明了美国在人工智能领域的建立的优势正在快速缩小。
此外,使用 DeepSeek-R1 界面的用户只需支付运行 ChatGPT o1 费用的不到三十分之一(10美元 vs 370 美元)。此外,DeepSeek 还创建了 DeepSeek-R1 的迷你“蒸馏”版本,以便算力有限的研究人员也能使用该模型。
该文章分析了中国是如何创造出震惊世界的 AI 模型 DeepSeek,文章中指出,政策支持、大量资金,以及大量的 AI 专业人才,帮助中国企业建立了先进的大语言模型。
如果 DeepSeek-R1 的表现让中国以外的许多人感到惊讶,但国内的研究人员表示,这家初创企业的成功在意料之中,也符合政府成为全球人工智能(AI)领导者的雄心。
中国科学院计算技术研究所副所长陈云霁研究员表示, 鉴于中国在开发大语言模型的公司上投入了巨额风险资本,且拥有众多在科学、技术、工程或数学领域 (包括人工智能) 拥有博士学位的人才,像 DeepSeek 这样的公司在中国出现是不可避免的。即便不是 DeepSeek,中国也会有其他大语言模型能够做出一番成就。
1 月 29 日,科技巨头阿里巴巴发布了其迄今为止最先进的大语言模型——Qwen2.5-Max(通义千问旗舰版),并称其性能优于 GPT-4o、DeepSeek-V3 以及 Llama-3.1-405B。而上周,月之暗面联合字节跳动发布了新的推理模型Kimi 1.5和Kimi 1.5 1.5-pro,并称其在某些基准测试中的表现优于 GPT-o1。