DeepSeek是一款基于AI技术的智能搜索引擎,结合深度学习与自然语言处理,提供精准、高效的搜索体验。探索DeepSeek,感受未来智能搜索的无限可能!
DeepSeek V3在多项基准测试中表现优于GPT-4等主流闭源模型,训练数据集包含14.8万亿token。
3.除此之外,DeepSeek V3在长文本处理、代码生成和数学推理等领域展现顶尖性能。
4.通过算法和工程优化,DeepSeek V3的生成速度提高至60 TPS,提升用户体验。
5.业界领袖和专家对DeepSeek V3表示广泛赞誉和关注,认为其体现了智慧和实用主义。
12月27日消息,中国人工智能公司DeepSeek日前发布了一款具有里程碑意义的开源大语言模型--DeepSeek V3。这款模型以其6710亿参数的规模,不仅超越了Meta的Llama3.1,更在多项基准测试中表现优于包括GPT-4在内的主流闭源模型。
DeepSeek V3的卓越性能和高效开发过程是其突出特点。在编程平台Codeforces的竞赛中,DeepSeek V3展现了其卓越的编程能力,而在测试代码集成能力的Aider Polyglot测试中,它更是领先于竞争对手。模型的训练基于14.8万亿token的庞大数据集,参数规模达到了Llama3.1的1.6倍,这为其出色的性能提供了坚实的数据基础。
此外,DeepSeek V3在长文本处理、代码生成和数学推理等多个领域都展示了顶尖的性能。特别是在中文任务和数学基准测试中,DeepSeek V3的表现尤为突出,展现了其深刻的理解和处理能力。通过算法和工程上的优化,DeepSeek V3在生成速度上实现了三倍提升,从20 TPS提高到60 TPS,极大改善了用户的交互体验和模型响应速度。
DeepSeek V3的问世,在人工智能领域掀起了波澜。这款开源大语言模型以其卓越的性能和创新的技术特点,迅速赢得了业界领袖和专家的广泛赞誉和关注。以下是部分业界权威人士在社交媒体X上对DeepSeek V3的评价摘要:
资源限制是一件美妙的事情。在竞争激烈的人工智能领域中,生存本能是推动突破的主要动力。我一直在关注DeepSeek。去年他们拥有最好的开源编码模型之一。卓越的开源模型给前沿的大语言模型商业公司带来了巨大的压力,迫使他们加快步伐。我非常期待看到DeepSeek在开源平台LM Arena上的ELO评分!
02.著名人工智能科学家和特斯拉前人工智能和自动驾驶视觉总监、OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)
中国的人工智能公司DeepSeek今日发布了一款前沿级别的大语言模型的开源权重,该模型仅在2048颗GPU上训练了2个月,耗资600万美元。作为参考,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。例如,Llama 3 405B使用了3080万GPU小时(GPU-hours),而DeepSeek-V3看起来是一个更强大的模型,仅使用了280万GPU小时(约减少了11倍的计算量)。如果该模型通过了VibeCheck(例如,大语言模型竞技场的排名正在进行中,我进行的一些快速测试到目前为止进展顺利),这将是在资源限制下研究和工程能力的一次令人印象深刻的展示。
这是否意味着不需要大型GPU集群来训练前沿的大语言模型?并非如此,但必须确保不浪费所拥有的资源,而DeepSeek的这一成果正是一个不错的例子,表明在数据和算法方面仍有很大的提升空间。
此外,DeepSeek还提供了一份非常详细和技术性的报告,我正在阅读中。
中国领先的大型语言模型实验室DeepSeek选择在圣诞节发布其最新型号V3,这一举措颇具深意。
中国科技界的辛酸教训是:当美国休息时,中国在工作,以更低的成本、更快的速度迎头赶上,变得更强。
FP8预训练、混合专家模型(MoE)、在极其有限的预算下表现出色,以及通过CoT(Chain of Thought)进行蒸馏引导以实现自举……哇,这真是了不起的工作。
我认为美国的芯片出口管制并未达到预期效果。中国的DeepSeek V3模型表现非常强大,其训练成本远低于预期:
对于Sonnet级别而言,550万美元的投资确实是一项值得夸耀的成就,他们对此感到自豪是情理之中的事,尽管这不免给人一种炫耀之感。1亿美元的运算成本,405B模型耗费了3084万H100 GPU小时,是吗?西方的拙劣尝试者们,你们的硅资源被白白浪费了,你们的思路甚至无法减少自己模型的损失。”
在当前的讨论中,DeepSeek模型被频繁地与‘中国’联系在一起,并且隐含地与中美关系或GPU能力联系起来。但在我看来,DeepSeek的成功与这些因素关系不大。这仅仅是智慧和实用主义的体现:在有限的计算资源和人力条件下,通过聪明的研究产生最好的结果。就像当年阿历克斯·克里兹赫夫斯基(Alex Krizhevsky)需要用仅有的2个GPU创造奇迹一样,而不是依赖一个超级计算集群。
世界上有很多超级聪明的人工智能人才和公司。就中华民族群体而言,我有幸与之合作的人包括(但不限于):
--韩松(Song Han),DeePhi、OmniML的创始人,现在麻省理工学院的教授。
他们都身处人工智能领域的最前沿,无论是在研究、产品、小型创业公司还是大型公司中。
人工智能应该让我们更加紧密,而不是更加分离。我对罗萨琳德·皮卡德(Rosalind Picard)教授在NeurIPS上的歧视性评论感到难过,但当时太忙,没有整理我的想法并发表意见。回顾2024年,我认为真正突出的是人工智能突破的基本追求--收集我们所拥有的,运用我们的智慧,实现我们的最佳。这就像奥林匹克口号:更快、更高、更强,更团结。
以每秒钟60个token的速度(相当于人类阅读速度的5倍)全天候运行DeepSeek V3,每天的成本是2美元。”