type
Post
status
Draft
date
Apr 20, 2026
slug
DeepSeekV3
summary
tags
category
DeepSeek
icon
password
😀

0 DeepSeekv3训练必备硬件与学习路线

预训练是大语言模型构建过程中非常核心的环节、曾经它是一支“高岭之花”、其高昂的成本、复杂的流程让大部分公司望而却步,但随着DeepSeek系列模型的推出、随着unsloth框架频频推出更低精度的量化版本模型、以及随着国产GPU和海外GPU不断加入更低精度训练和推理专属的计算模块、大模型训练的成本越来越低、构建私有模型、构建专属模型成为许多企业和政府机构的实际需求。
在开源模型众多、各类量化模型层出不穷的今天,为什么我们还要耗费巨大经历走通DeepSeekv3的预训练全流程?这是因为——
  1. 预训练能够弥补微调(Fine-tuning)或 RAG(Retrieval-Augmented Generation)的能力不足、为行业创造真正专业的“垂类模型”,随着训练成本越来越低,预训练技术的需求会逐渐增长。微调和RAG虽然能提升模型在特定任务上的表现,但它们都无法从根本上改变模型的知识储备和表示能力,在下面的情况中你会需要预训练、而不止微调——
知识密集型任务:例如医学诊断、法律咨询、金融分析等领域,单纯的微调无法让模型掌握足够的领域知识,而在预训练阶段加入大规模医学、法律等专业文献可以显著提升模型的基础能力、构造真正的“垂类模型”。 • 新概念引入、知识灌注:比如医疗AI模型需要理解新的病症、新的治疗方法,仅靠微调可能无法让模型真正掌握这些知识,需要在预训练过程中引入相关数据并进行大规模建模。 • 推理能力的培养:微调和 RAG 通常更偏向于“记忆”已有知识,而 复杂推理能力(如数学、逻辑推理、代码理解等)必须依赖预训练阶段的架构设计、数据分布、目标函数优化等。
  1. DeepSeekv3带来了众多关键预训练技术、理解这些技术对未来掌握大规模模型训练至关重要。DeepSeekv3的MTP(Multi-token Prediction)技巧、以及Tensor + Pipeline + ZeRO 1 Data + Experts 4种类型的并行都需要在预训练过程中实现、而这些技术未来或许成为预训练领域非常核心的根基技术。
  1. 这是我们首次实现工业级预训练项目、从数据准备到预训练的全流程、我们都配备了让你能够拓展到100B模型的预训练流程供你学习。这份价值百万的经验与拓展代码保障了学习的实用性、它成为你落地项目、研究和求职过程中非常高价值的课程内容。

所需硬件基础及Autodl租赁指南

我的设备为、AutoDL租赁的——
该设备的成本越为8.2r/小时、AutoDL支持的最大卡位是1机8卡、因此如果你和我一样使用4090,那你的成本最多是17r/小时。硬件无上限、当前代码支持A800、A100、RTX6000等显卡、如果你有更好的设备,也欢迎使用。
你所需要的最低硬盘要求与我一样是1000G,最次也要有6~700G,CPU和显卡要求是我的一半、这是能够运行多进程分布式的最低要求。最低要求的租赁成本约为每小时4r,数据处理所需时长大约为60小时、在我所设置的超参数下里所需的训练时长大约也为60小时(5个epoch)。
你可以通过缩小模型尺寸、或者缩小所使用的数据尺寸来完成整个训练流程、这样可以大幅缩减你所需的数据处理和训练时间。另外,也可选择按量计费中的无卡模式开机(每小时只需0.1r,硬盘依然可以使用),无卡模式下不会启动GPU、配备的cpu等级也比较低、因此价格十分便宜,你可以在这个模式下先确定所有代码都到位、可尝试在此基础上进行数据预处理、代码编写、上传下载文件等等占用时间的操作。
同时,在选择环境及基础配置时我选择的是 ↓
notion image
这一选择下默认的python是12.3版本,但是cuda版本比较合适。

1 DeepSeekv3 mini参数设置与技术选型

在如此低的硬件设备要求下,我们是如何实现工业中的训练流程的?在工业中,我们通常有以下三种模型规模与尺寸划分 ↓
模型规模
1B~7B
7B~72B
72B以上
数据 Token 量
100B~750B tokens
750B ~ 10T tokens
10T~15T
数据存储存储需求
400GB~3TB
3TB~30TB
30TB~45TB
在这样的规模划分下,通常所使用的技术框架有 ↓
训练流程
适用于1B-7B模型<br>(数据400G-3T)
适用于7B~72B模型<br>(数据3T-30TB)
备注
数据获取方式
手动下载
hfd+Aria2+git-lfs+jq+Ray<br>多线程并行拉取/分布式拉取
---
数据存储方式
硬盘存储<br>允许是csv等格式
服务器存储、硬盘或NAS、S3、Ceph,存储格式jsonl/bin
如果数据量更大、可以补充Apache Parquet + Hive Metastore框架
数据处理框架
polars、json
HuggingFaceDatasets、PyArrow、Json、使用PackedDataset等方式
---
数据清理与去重
正则匹配、长短过滤、人工检查
DataJucier
---
Tokenization
BPE + tiktoken
通常自定义BPE Tokenizer
---
训练框架
PyTorch、Huggingface Transformers
单机多卡用DeepSpeed、Megatron-LM、多机多卡用FSDP、Colossal-AI
---
训练并行策略
无并行或数据并行
3D 并行(TP+PP+DP)+<br> EP + ZeRO系列并行
---
混合精度训练
无(FP32)
FP16 / BF16 / FP8<br>低精度优化(QLoRA)
---
优化器
AdamW
单机多卡 Adamw、多机多卡FSDP Optimizer
---
推理加速框架
TensorRT-LLM、vLLM、Triton
---
部署方式
单机或ONNX Runtime 部署
多节点/多卡分布式推理<br>(TensorRT-LLM + vLLM)
---
模型存储格式
PyTorch .pt或HF Transformers Format
Safetensors或GGUF
---

我们实现的是单机多卡分布式、支持7~72B模型训练的大型模型训练流程,
我们实现的模型尺寸为0.3B DeepSeekv3 mini,为支持MTP的自定义DeepSeekv3模型
我们是所使用的数据规模为200G原始数据。
我们使用的是小尺寸模型 + 大训练框架的组合策略、在保证大家能够学到行业实际训练流程的同时、尽量压缩所需的算力和训练成本。

故而,在本次预训练流程中、我们最终所使用的技术选型如下 ↓
训练流程
适用于1B-7B模型<br>(数据400G-3T)
适用于7B~72B模型<br>(数据3T-30TB)
备注
数据获取方式
手动下载
<font color="red">hfd+Aria2+git-lfs+jq+Ray<br>多线程并行拉取/分布式拉取
---
数据存储方式
硬盘存储<br>允许是csv等格式
<font color="red">服务器存储、硬盘</font>或NAS、S3、Ceph<font color="red">存储格式jsonl/bin</font>
如果数据量更大、可以补充Apache Parquet + Hive Metastore框架
数据处理框架
polars、json
<font color="red">HuggingFaceDatasets、PyArrow、Json、使用PackedDataset等方式
---
数据清理与去重
正则匹配、长短过滤、人工检查
<font color="red">DataJucier
---
Tokenization
BPE + tiktoken
<font color="red">DeepSeek开源tokenizer
---
训练框架
PyTorch、Huggingface Transformers
<font color="red">单机多卡用DeepSpeed</font>、Megatron-LM、多机多卡用FSDP、Colossal-AI
Megatron不支持ZeRO-1并行因此最终还是选择DS,另外我们将额外提供一套FSDP代码供大家学习和参考
训练并行策略
无并行或数据并行
<font color="red">3D 并行(TP+PP+DP)+<br> EP + ZeRO系列并行
---
混合精度训练
无(FP32)
<font color="red">FP16 / BF16</font> / FP8<br><font color="red">各类低精度优化</font>
---
优化器
AdamW
<font color="red">单机多卡 Adamw</font>、多机多卡FSDP Optimizer
---
推理加速框架
<font color="red">TensorRT-LLM、vLLM、Triton
---
部署方式
单机或ONNX Runtime 部署
多节点/<font color="red">多卡分布式推理<br>TensorRT-LLM + vLLM
---
模型存储格式
PyTorch .pt或HF Transformers Format
<font color="red">Safetensors或GGUF
---
 
【DeepSeekv3预训练】1 训练必备硬件与学习路线上次学习 视频 21分钟04秒 已学完 【DeepSeekv3预训练】2 MiniDeepSeek训练框架选择与设置 视频 18分钟10秒 已学完 【DeepSeekv3预训练】3 MiniDeepSeek参数量与架构设置 视频 25分钟17秒 已学20% 【DeepSeekv3预训练】4 v3训练与数据处理环境搭建 视频 33分钟38秒 【DeepSeekv3预训练】5 从0构造与收集预训练数据集 视频 34分钟39秒 【DeepSeekv3预训练】6 aria2 + gitlfs + hfd 并行化数据下载 视频 18分钟38秒 【DeepSeekv3预训练】7 下载后数据管理与数据比例控制 视频 23分钟59秒 【DeepSeekv3预训练】8 大模型预训练数据清洗的一般流程 视频 18分钟01秒 【DeepSeekv3预训练】9 多模态PDFrawdata批量处理流程 视频 25分钟29秒 【DeepSeekv3预训练】9.5 关于预训练的一系列Q&A 视频 22分钟12秒 【DeepSeekv3预训练】15 批量化分词中的分布式选择与IO限制问题 视频 18分钟46秒 【DeepSeekv3预训练】10 数据处理step1:巨量数据并行jsonl化实战 视频 32分钟31秒 【DeepSeekv3预训练】11 数据处理step2:Datajucier并行化数据清洗 视频 28分钟42秒 【DeepSeekv3预训练】12 Datajucier算子选择与筛选参数设置流程 视频 29分钟53秒 【DeepSeekv3预训练】12.5 数据清洗与显卡租赁相关的Q&A 视频 15分钟35秒 【DeepSeekv3预训练】13 数据处理step3:tokenizer分词与数据混合( 视频 22分钟41秒 【DeepSeekv3预训练】14 数据处理step3:tokenizer分词与数据混合( 视频 26分钟50秒 【DeepSeekv3预训练】16 Prefix-Suffix-Middle数据掩码 视频 06分钟05秒 【DeepSeekv3预训练】17 数据处理step4:将数据按照DeepSeek与神经网 视频 19分钟12秒 【DeepSeekv3预训练】18 DeepSeekv3预训练必备文件与shell执行脚本 视频 25分钟24秒 【DeepSeekv3预训练】19 DeepSeekv3 pretrain.py脚本解读( 视频 24分钟15秒 【DeepSeekv3预训练】20 DeepSeekv3 pretrain.py脚本解读( 视频 25分钟30秒 【DeepSeekv3预训练】20.5.1 pretrain.py脚本相关的Q&A (1) 视频 12分钟46秒 【DeepSeekv3预训练】20.5.2 pretrain.py脚本相关的Q&A (2) 视频 28分钟37秒 【DeepSeekv3预训练】21 分布式预训练下对model脚本的改写与影响 视频 18分钟18秒 【DeepSeekv3预训练】21.5 model.py脚本相关Q&A 视频 11分钟40秒 【预训练经验分享】1 巨量数据下载如何避免429错误? 视频 07分钟07秒 已学62% 【预训练经验分享】2 应该如何选择合适的tokenizer? 视频 06分钟36秒 【预训练经验分享】3 分词过程中精度对齐与数据量暴涨bug 视频 06分钟52秒 【预训练经验分享】3.5 数据经验相关的Q&A 视频 06分钟40秒 【预训练经验分享】4 开源推理模型用于训练都哪些陷阱? 视频 03分钟42秒 【预训练经验分享】5 如何确保多机多卡启动?如何拉满GPU效率? 视频 07分钟55秒 【预训练经验分享】6 落地debug工具与代码有哪些? 视频 02分钟32秒 【预训练经验分享】7 如何修复模型训练不稳定不收敛等问题? 视频 08分钟48秒 【预训练经验分享】8 训练时间太长如何改善? 视频 10分钟16秒 【预训练经验分享】9 训练效果不佳如何改善 + 多机多卡代码相关说明 视频 03分钟20秒 【预训练经验分享】9.5 预训练经验相关的Q&A 视频 17分钟02秒 【数据处理经验分享】1 预训练 vs 微调 vs RAG如何选择? 视频 19分钟47秒 已学1% 【数据处理经验分享】2 预训练微调成本与最低配显卡标准 视频 10分钟49秒 【数据处理经验分享】3 预训练微调多模态都需要什么样的数据? 视频 15分钟46秒 【数据处理经验分享】4 各场景下数据如何配比?需要多大数据规模? 视频 11分钟10秒 【数据处理经验分享】5 数据去哪里找?人造数据要注意哪些问题? 视频 14分钟26秒 【数据处理经验分享】5.5 数据制造与选择相关的Q&A
 
 
 
 

📎 参考文章

  • 一些引用
  • 引用文章
 
💡
欢迎您在底部评论区留言,一起交流~
上一篇
第一节 大脑:重新认识你自己
下一篇
Harness Engineering - 搭建Mini Harness
Loading...