73
AI资讯

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度,能否改写AI格局?

收录于合集

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324,在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face,此次发布延续了DeepSeek低调却极具影响力的风格,没有大肆宣传,仅附带空的README文件和模型权重。


这款模型采用MIT许可,可免费用于商业用途,且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。AI研究人员Awni Hannun在社交媒体透露,4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上,运行速度超20令牌/秒。尽管Mac Studio价格高昂,但能在本地运行如此大规模模型,打破了以往顶尖AI对数据中心的依赖。



DeepSeek-V3-0324采用混合专家(MoE)架构,执行任务时仅激活约370亿个参数,而非全部6850亿个参数,大幅提升了效率。同时,它融入了多头潜在注意力(MLA)和多令牌预测(MTP)技术,MLA增强了模型在长文本中的上下文理解能力,MTP使模型每次能生成多个令牌,输出速度提升近80%。4位量化版本将存储需求降至352GB,这使得在高端消费级硬件上运行成为可能。


早期测试者反馈,DeepSeek-V3-0324较上一版本有显著提升。AI研究人员Xeophon宣称,该模型在所有测试指标上都有巨大飞跃,已超越Anthropic的Claude Sonnet3.5,成为最佳非推理模型。而且,与需订阅使用的Sonnet不同,DeepSeek-V3-0324的权重可免费下载使用。



DeepSeek的开源发布策略与西方AI公司形成鲜明对比。美国的OpenAI和Anthropic等将模型设置付费门槛,而中国AI企业愈发倾向于宽松的开源许可。这一策略加速了中国AI生态系统的发展,像百度、阿里巴巴和腾讯等科技巨头也纷纷跟进,发布开源AI模型。在面临英伟达芯片限制的情况下,中国企业通过强调效率和优化,将劣势转化为竞争优势。


DeepSeek-V3-0324很可能是即将推出的DeepSeek-R2推理模型的基础。当前推理模型计算需求巨大,若DeepSeek-R2性能出色,将对OpenAI传闻中的GPT-5构成直接挑战。


对于想要体验DeepSeek-V3-0324的用户和开发者,可从Hugging Face下载完整模型权重,但文件较大,对存储和计算资源要求较高。也可选择云服务,如OpenRouter提供免费API访问和友好的聊天界面;DeepSeek自身的聊天界面可能也已更新支持新版本。开发者还能通过Hyperbolic Labs等推理服务提供商集成该模型。


值得注意的是,DeepSeek-V3-0324在沟通风格上有所变化,从之前类似人类的对话式风格转变为更正式、技术化的风格。这种转变是为了适应专业和技术应用场景,但可能会影响其在面向消费者应用中的吸引力。


DeepSeek的开源策略正在重塑全球AI格局。此前,中国AI与美国有1-2年的差距,如今已大幅缩小至3-6个月,部分领域甚至实现了赶超。就像安卓系统通过开源获得全球主导地位一样,开源AI模型凭借广泛的应用和开发者的集体创新,有望在竞争中脱颖而出,推动AI技术更广泛地应用。 

79664
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|夜曲编程转让课,3500购入
编程课
¥1100
次卡|包头茂业里的引导者课程 少儿乐高 编程
编程课
¥1400
年卡|扇贝编程课程
编程课
¥1458
次卡|出扇贝编程系列课60节
编程课
¥1500
年卡|学而思在线编程课
编程课
¥1500
次卡|转让秦皇创客机器人编程课20节
编程课
¥1500
次卡|乔斯编程
编程课
¥1500
年卡|西瓜编程,西瓜创客编程
编程课
¥1500
次卡|[全新专属]核桃编程C++年课课程账号,我们会提供后续等级考试和竞赛指导服务。关注享粉丝优惠价!。
c++课
¥1599
次卡|[官方正品 全新专属]核桃编程C++年课课程账号,提供后续等级考试和竞赛指导服务。关注享粉丝优惠价!
c++课
¥1599