DeepSeek全网刷屏 背后团队是谁?如何跻身全球前三?
- 1738045219165
- 来源:亚太快讯
中国国产大模型DeepSeek日前超越ChatGPT,登顶苹果中国和美国应用商店免费APP下载排行榜,成为了全球科技圈的热议话题。关于什么是DeepSeek,它为什么能以“中国模式”跻身全球前三都成为目前网民关注的话题。
DeepSeek背后团队到底是谁?
1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位。同时,DeepSeek在美区苹果App Store免费榜从26日的第六位飚升至第一位,超越ChatGPT及Meta公司旗下的社交媒体平台Threads,以及Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。
上海澎湃新闻报道,和中国国内AI公司背靠互联网大厂不同,DeepSeek由量化对冲基金幻方量化运营。2016年,幻方量化推出首个AI模型,第一份由深度学习生成的交易仓位上线执行。到2017年底,几乎所有的量化策略都采用AI模型计算。2023年,幻方量化宣布成立创新性大模型公司DeepSeek。
2024年12月,DeepSeek-V3首个版本上线,并同步开源,训练成本仅为557.6万美元,整个训练只需要280万个GPU小时。
1月20日,DeepSeek又正式开源R1推理模型。1月24日,DeepSeek-R1在Chatbot Arena综合榜单上排名第三,与OpenAI的顶尖推理模型o1并列。
这一科技成果背后是一个完全本土化的阵容,据悉,DeepSeek团队不到140人,但“人才密度”极高,成员多是来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。值得一提的是,团队没有“海归”,完全本土人才。
“我们的核心技术岗位主要由今年或过去一两年毕业的人员担任”,DeepSeek创始人梁文峰在2023年时表示。
此前,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉就曾被雷军以千万年薪招揽。
DeepSeek爆火后,媒体也发现DeepSeek正在招聘。招聘网站显示,DeepSeek的北京子公司正在招人,现共放出了52个岗位,包括深度学习研究员、核心系统研发工程师以及资深ui设计师等,均为14薪。其中,薪资最高的为核心系统研发工程师(校招),薪资范围为6万元(人民币,下同)-9万元;除此之外,大部分岗位的起薪在2万元及以上。值得一提的是,该公司正在招聘实习生,AGI大模型实习生的工资为500元/天-1000元/天,数据百晓生实习生为500元/天-510元/天。
如何能跻身全球前三
几乎名不见经传的创业公司,一年多时间内成为大模型行业的“黑马”,这个团队是如何做到的?
上海上观新闻报道,2024年12月,DeepSeek发布了新一代大语言模型V3,已引起行业不少讨论,但1月20日发布的R1,将DeepSeek的热度推向了高潮。
海外大模型排名榜单Arena最新测评显示,R1基准测试在全类别大模型中排名第三,其中在风格控制分类中与OpenAI o1并列第一,其竞技场得分达到1357分,甚至略超OpenAI o1。这也几乎意味着,DeepSeek-R1跻身全球最强大模型之列。
DeepSeek的官方测试也显示,R1在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。在各自小参数版本的模型比拼中,R1-32B与o1-mini的表现各有胜负,其中前者的数学推理明显优于后者。
DeepSeek的横空出世,让硅谷多位AI大佬刮目相看,无论是微软CEO还是OpenAI的投资人都公开表达,DeepSeek-R1作为开源模型在推理计算能力的出色表现,令人印象深刻。而《黑神话:悟空》主创成员冯骥在使用R1后指出了六大优势:强大、便宜、开源、免费、联网和本土。其中,便宜、免费、联网等优势全面超越了OpenAI、Meta、Google等AI巨头。
DeepSeek有多便宜?推理模型R1的API(编程接口)服务定价为每百万tokens(词元)仅需1元(缓存命中)/4元(缓存未命中),每百万输出tokens为16元。大语言模型V3就更便宜了,每百万tokens仅需0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens为2元。DeepSeek的定价约等于Llama3-70B的七分之一,GPT-4Turbo的七十分之一。
便宜又好用的大模型,为何诞生在一家成立仅1年半的创业公司?这就不能不提到,DeepSeek与生俱来的算力优势和技术优势。
天眼查信息显示,DeepSeek背后的实控人是梁文锋,他所创立的幻方量化是中国国内知名的量化私募基金,这也给DeepSeek打下了良好的算力基础。
不同于常规基金依赖基金经理,量化基金通过数量模型的计算寻找投资机会,因此对数据尤为敏感,其高频交易的特点更是离不开机器学习。为了从海量数据中挖掘投资机会,幻方量化早早开始囤积算力,先后斥资10亿元,在美国对芯片出口管制前购买了1万张英伟达A100型号GPU。机缘巧合下,幻方量化成为中国国内GPU算力最充足的企业之一。
AI行业有条Scaling Law(规模化法则),指的是大模型的性能与其训练资源、数据集和参数规模存在正相关性,也就是说,算力越大、参数越多,训练出的大模型性能就越好。如果遵照Scaling Law的规则,幻方量化的算力基础,成了DeepSeek最大的王牌之一。
当然,光靠算力优势,DeepSeek显然无法与全球AI巨头抗衡。“DeepSeek爆火主要是创新的技术路线。”上海人工智能行业协会秘书长钟俊浩认为,架构机制、训练方法和管道并行算法等创新,展现了中国本土AI技术的潜力,颠覆了中国只是AI技术跟随者、应用方的传统认知。
根据DeepSeek公布的技术论文显示,R1在训练过程中实验了三种技术路径:直接强化学习、多阶段渐进训练和模型蒸馏,其中R1首次证明了直接强化学习的有效性。科技媒体在技术解读中打了个比方,面对同一道题目,大模型同时多次进行回答,系统将给每个答案打分,依照“高分奖励低分惩罚”的逻辑进行循环,最终得出更具优势的推理路径。
与此同时,Deepseek还采用了混合专家模型(MoE)创新架构,只需激活5%—10%的专家网络,大幅降低了大模型训练的算力要求,同时还采取了FP8混合精度训练,减少模型训练的显存占用量。
本着“该省省该花花”的训练思路,DeepSeek最新大语言模型V3的训练成本仅为558万美元,不足GPT-4o的二十分之一。
ChatGPT回应被DeepSeek超越
此外,对于下载榜排名的变化,ChatGPT也给出了回应。
北京光明网报道,ChatGPT的回复更为简洁:DeepSeek如果能够在短时间内超越ChatGPT,可能是在某些方面有独特的优势或者满足了用户的某种需求,比如更高效的搜索、深度信息挖掘或者更符合用户习惯的界面和功能。
不过,ChatGPT也表示,它在AI领域已经积累了很强的品牌效应和用户基础,这样的排名变化也许是暂时的,但也说明了市场上竞争激烈,AI应用的创新空间还很大。如果DeepSeek真能带来一些突破性体验,可能会在长期内对市场格局产生影响。
编辑:赵柄楠
相关新闻