Copyright 2018-2025 速推科技 版權(quán)所有 京ICP備19012569號-1
壞消息,開源模型和閉源模型的差距越來越大了。
好消息,DeepSeek 又出手了。
12 月 1 日,DeepSeek 發(fā)布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。

前者和 GPT-5 能打的有來有回,后面的高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個(gè)五五開。

還在IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)等一系列比賽中拿下金牌。

這是這家公司今年第九次發(fā)布模型,雖然大家期待的 R2 還沒有來。
所以,DeepSeek 是怎么用更小的數(shù)據(jù),更少的顯卡,做出能和國際巨頭來抗衡的模型?
我們翻開了他們的論文,想把這件事給大家講清楚。
為了做到這個(gè)目標(biāo),DeepSeek 又整了不少新招:
先是把咱們的老朋友 DSA —— 稀疏注意力給轉(zhuǎn)正了。

這東西在之前的 V3.2-EXP 版本里出現(xiàn)過,當(dāng)時(shí)只是測了一下 DSA 會(huì)不會(huì)影響模型的性能,現(xiàn)在是真的把這玩意給放到了主力模型上。
