2025年1月,DeepSeek-R1上線,此時正值R1模型發布一周年之際,DeepSeek新模型“MODEL1”曝光。
北京時間1月21日,DeepSeek官方GitHub倉庫更新了一系列FlashMLA代碼,借助AI對全部總代碼文件數:114個(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)進行分析,發現了一個此前未公開的模型架構標識“MODEL1”,共被提及31次。
FlashMLA是DeepSeek獨創的、針對英偉達Hopper架構GPU深度優化的軟件工具,專門加速大模型“推理生成”這一環節。該算法的實現基礎MLA(多層注意力機制),是DeepSeek模型(如V2、V3)實現低成本、高性能的關鍵技術之一,用于在模型架構層面減少內存占用,最大化地利用GPU硬件。
MODEL1是DeepSeek FlashMLA中支持的兩個主要模型架構之一,另一個是DeepSeek-V3.2。據推測,MODEL1很可能是一個高效推理模型,相比V3.2,內存占用更低,適合邊緣設備或成本敏感場景。它也可能是一個長序列專家,針對16K+序列優化,適合文檔理解、代碼分析等長上下文任務。它也可能是一個長序列專家,針對16K+序列優化,適合文檔理解、代碼分析等長上下文任務。
另外,MODEL1的硬件實現跨越多個GPU架構。在英偉達H100/H200(SM90架構)上有兩個版本:model1_persistent_h64.cu用于64頭配置,model1_persistent_h128.cu用于128頭配置。在最新的B200(SM100架構)上有專門的Head64內核實現,而SM100的Head128實現僅支持MODEL1,不支持V3.2,有人猜測DeepSeek為適配英偉達新一代GPU,專門優化了MODEL1的架構。
DeepSeek已發布的主要模型是兩條技術路線的代表:追求極致綜合性能的V系列“全能助手”和專注于復雜推理的R系列“解題專家”。
2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架構確立了強大的綜合性能基礎。此后,DeepSeek在V3基礎上快速迭代,發布了強化推理與Agent(智能體)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同時,還推出了一個專注于攻克高難度數學和學術問題的特殊版本V3.2-Speciale。
2025年1月發布的R1,則通過強化學習,在解決數學問題、代碼編程等復雜推理任務上表現卓越,并首創了“深度思考”模式。
科技媒體The Information月初爆料稱,DeepSeek將在今年2月中旬農歷新年期間推出新一代旗艦AI模型——DeepSeek V4,將具備更強的寫代碼能力。
此前,DeepSeek研究團隊陸續發布了兩篇技術論文,分別介紹了名為“優化殘差連接(mHC)”的新訓練方法,以及一種受生物學啟發的“AI記憶模塊(Engram)”。這一舉動不禁引起用戶猜測,DeepSeek正在開發中的新模型有可能會整合這些最新的研究成果。