DeepSeek R1T2

6个月前发布 279 00

基于 DeepSeek 原始模型打造的改进版大型语言模型

收录时间：

2025-12-28

DeepSeekR1T2是什么

DeepSeekR1T2（又名 DeepSeek‑TNG R1T2 Chimera）是由德国 TNG Technology Consulting 基于 DeepSeek 原始模型打造的高效改进版大型语言模型。
它采用被称为 Tri-Mind 架构 的混合体，融合了三个父模型——DeepSeek R1‑0528、R1 与 V3‑0324——通过一种名为 Assembly‑of‑Experts（AoE） 的模型融合技术，实现高推理能力、结构化思维与简洁指令响应的统一。
性能上，R1T2 推理速度是 R1‑0528 的两倍（提升约 200%），比 R1 快约 20%；输出 token 长度减少约 60%，大幅降低了推理时间和计算成本。
在 GPQA‑Diamond、AIME‑2024 与 ‑2025 等推理基准中，R1T2 的智力表现达到了 R1‑0528 的 90–92%，超过原 R1 模型。
R1T2 支持 MIT 开源协议，可公开下载、微调，并支持企业私有部署，适合对速度与成本敏感的推理密集场景使用。

高效推理与显著加速
推理速度是 R1‑0528 的两倍，相比 R1 提升约 20%；输出 token 减少约 60%，节省时间与算力。
智能与效率平衡
Tri‑Mind 架构融合三种模型能力：R1‑0528 的深度推理、R1 的结构化思维、V3‑0324 的简洁指令导向行为，兼具智能深度与实用性。
简洁输出与成本控制
输出 token 平均减少 60%，简洁度比 R1 上升约 20%，适合高并发或预算敏感型部署。
稳定对话一致性
修复了初代 R1T 存在的问题，即便无系统提示也能保证对话连贯与自然。
开源与自由定制
遵循 MIT 协议，开源权重可公开获取，支持微调、私有部署及商业使用。

Tri‑Mind 架构融合
R1T2 将三个父模型的专家张量融合，包括 R1‑0528 的推理模块、R1 的结构化专长、V3‑0324 的指令风格。
Assembly‑of‑Experts (AoE)
不同于运行时动态激活的 Mixture‑of‑Experts（MoE），AoE 在权重张量层面融合模型，借此保留多模型优势同时降低冗余。
输出长度优化
R1T2 在维持高智力水平的同时，将输出 token 数控制在父模型的 40%，极大提升推理效率。
无需再训练
R1T2 的构建基于模型合并，无需额外微调或训练，快速继承三模型优势，节省大量成本与时间。
行为一致性修复
修正初代混合模型中的不一致问题，使得推理逻辑更稳定、连贯。