null | 小南的博客

type

Post

status

Draft

date

Apr 20, 2026

slug

DeepSeekV3

summary

0 DeepSeekv3训练必备硬件与学习路线

预训练是大语言模型构建过程中非常核心的环节、曾经它是一支“高岭之花”、其高昂的成本、复杂的流程让大部分公司望而却步，但随着DeepSeek系列模型的推出、随着unsloth框架频频推出更低精度的量化版本模型、以及随着国产GPU和海外GPU不断加入更低精度训练和推理专属的计算模块、大模型训练的成本越来越低、构建私有模型、构建专属模型成为许多企业和政府机构的实际需求。

在开源模型众多、各类量化模型层出不穷的今天，为什么我们还要耗费巨大经历走通DeepSeekv3的预训练全流程？这是因为——

预训练能够弥补微调（Fine-tuning）或 RAG（Retrieval-Augmented Generation）的能力不足、为行业创造真正专业的“垂类模型”，随着训练成本越来越低，预训练技术的需求会逐渐增长。微调和RAG虽然能提升模型在特定任务上的表现，但它们都无法从根本上改变模型的知识储备和表示能力，在下面的情况中你会需要预训练、而不止微调——

• 知识密集型任务：例如医学诊断、法律咨询、金融分析等领域，单纯的微调无法让模型掌握足够的领域知识，而在预训练阶段加入大规模医学、法律等专业文献可以显著提升模型的基础能力、构造真正的“垂类模型”。 • 新概念引入、知识灌注：比如医疗AI模型需要理解新的病症、新的治疗方法，仅靠微调可能无法让模型真正掌握这些知识，需要在预训练过程中引入相关数据并进行大规模建模。 • 推理能力的培养：微调和 RAG 通常更偏向于“记忆”已有知识，而复杂推理能力（如数学、逻辑推理、代码理解等）必须依赖预训练阶段的架构设计、数据分布、目标函数优化等。

DeepSeekv3带来了众多关键预训练技术、理解这些技术对未来掌握大规模模型训练至关重要。DeepSeekv3的MTP（Multi-token Prediction）技巧、以及Tensor + Pipeline + ZeRO 1 Data + Experts 4种类型的并行都需要在预训练过程中实现、而这些技术未来或许成为预训练领域非常核心的根基技术。

这是我们首次实现工业级预训练项目、从数据准备到预训练的全流程、我们都配备了让你能够拓展到100B模型的预训练流程供你学习。这份价值百万的经验与拓展代码保障了学习的实用性、它成为你落地项目、研究和求职过程中非常高价值的课程内容。

所需硬件基础及Autodl租赁指南

我的设备为、AutoDL租赁的——

该设备的成本越为8.2r/小时、AutoDL支持的最大卡位是1机8卡、因此如果你和我一样使用4090，那你的成本最多是17r/小时。硬件无上限、当前代码支持A800、A100、RTX6000等显卡、如果你有更好的设备，也欢迎使用。

你所需要的最低硬盘要求与我一样是1000G，最次也要有6~700G，CPU和显卡要求是我的一半、这是能够运行多进程分布式的最低要求。最低要求的租赁成本约为每小时4r，数据处理所需时长大约为60小时、在我所设置的超参数下里所需的训练时长大约也为60小时（5个epoch）。

你可以通过缩小模型尺寸、或者缩小所使用的数据尺寸来完成整个训练流程、这样可以大幅缩减你所需的数据处理和训练时间。另外，也可选择按量计费中的无卡模式开机（每小时只需0.1r，硬盘依然可以使用），无卡模式下不会启动GPU、配备的cpu等级也比较低、因此价格十分便宜，你可以在这个模式下先确定所有代码都到位、可尝试在此基础上进行数据预处理、代码编写、上传下载文件等等占用时间的操作。

同时，在选择环境及基础配置时我选择的是 ↓

这一选择下默认的python是12.3版本，但是cuda版本比较合适。

1 DeepSeekv3 mini参数设置与技术选型

在如此低的硬件设备要求下，我们是如何实现工业中的训练流程的？在工业中，我们通常有以下三种模型规模与尺寸划分 ↓

模型规模	1B~7B	7B~72B	72B以上
数据 Token 量	100B~750B tokens	750B ~ 10T tokens	10T~15T
数据存储存储需求	400GB~3TB	3TB~30TB	30TB~45TB

在这样的规模划分下，通常所使用的技术框架有 ↓

训练流程	适用于1B-7B模型<br>（数据400G-3T）	适用于7B~72B模型<br>（数据3T-30TB）	备注
数据获取方式	手动下载	hfd+Aria2+git-lfs+jq+Ray<br>多线程并行拉取/分布式拉取	---
数据存储方式	硬盘存储<br>允许是csv等格式	服务器存储、硬盘或NAS、S3、Ceph，存储格式jsonl/bin	如果数据量更大、可以补充Apache Parquet + Hive Metastore框架
数据处理框架	polars、json	HuggingFaceDatasets、PyArrow、Json、使用PackedDataset等方式	---
数据清理与去重	正则匹配、长短过滤、人工检查	DataJucier	---
Tokenization	BPE + tiktoken	通常自定义BPE Tokenizer	---
训练框架	PyTorch、Huggingface Transformers	单机多卡用DeepSpeed、Megatron-LM、多机多卡用FSDP、Colossal-AI	---
训练并行策略	无并行或数据并行	3D 并行（TP+PP+DP）+<br> EP + ZeRO系列并行	---
混合精度训练	无（FP32）	FP16 / BF16 / FP8<br>低精度优化（QLoRA）	---
优化器	AdamW	单机多卡 Adamw、多机多卡FSDP Optimizer	---
推理加速框架	无	TensorRT-LLM、vLLM、Triton	---
部署方式	单机或ONNX Runtime 部署	多节点/多卡分布式推理<br>（TensorRT-LLM + vLLM）	---
模型存储格式	PyTorch .pt或HF Transformers Format	Safetensors或GGUF	---

我们实现的是单机多卡分布式、支持7~72B模型训练的大型模型训练流程，

我们实现的模型尺寸为0.3B DeepSeekv3 mini，为支持MTP的自定义DeepSeekv3模型

我们是所使用的数据规模为200G原始数据。

我们使用的是小尺寸模型 + 大训练框架的组合策略、在保证大家能够学到行业实际训练流程的同时、尽量压缩所需的算力和训练成本。

故而，在本次预训练流程中、我们最终所使用的技术选型如下 ↓

训练流程	适用于1B-7B模型<br>（数据400G-3T）	适用于7B~72B模型<br>（数据3T-30TB）	备注
数据获取方式	手动下载	<font color="red">hfd+Aria2+git-lfs+jq+Ray<br>多线程并行拉取/分布式拉取	---
数据存储方式	硬盘存储<br>允许是csv等格式	<font color="red">服务器存储、硬盘</font>或NAS、S3、Ceph<font color="red">存储格式jsonl/bin</font>	如果数据量更大、可以补充Apache Parquet + Hive Metastore框架
数据处理框架	polars、json	<font color="red">HuggingFaceDatasets、PyArrow、Json、使用PackedDataset等方式	---
数据清理与去重	正则匹配、长短过滤、人工检查	<font color="red">DataJucier	---
Tokenization	BPE + tiktoken	<font color="red">DeepSeek开源tokenizer	---
训练框架	PyTorch、Huggingface Transformers	<font color="red">单机多卡用DeepSpeed</font>、Megatron-LM、多机多卡用FSDP、Colossal-AI	Megatron不支持ZeRO-1并行因此最终还是选择DS，另外我们将额外提供一套FSDP代码供大家学习和参考
训练并行策略	无并行或数据并行	<font color="red">3D 并行（TP+PP+DP）+<br> EP + ZeRO系列并行	---
混合精度训练	无（FP32）	<font color="red">FP16 / BF16</font> / FP8<br><font color="red">各类低精度优化</font>	---
优化器	AdamW	<font color="red">单机多卡 Adamw</font>、多机多卡FSDP Optimizer	---
推理加速框架	无	<font color="red">TensorRT-LLM、vLLM、Triton	---
部署方式	单机或ONNX Runtime 部署	多节点/<font color="red">多卡分布式推理<br>TensorRT-LLM + vLLM	---
模型存储格式	PyTorch .pt或HF Transformers Format	<font color="red">Safetensors或GGUF	---

【DeepSeekv3预训练】1 训练必备硬件与学习路线上次学习视频 21分钟04秒已学完【DeepSeekv3预训练】2 MiniDeepSeek训练框架选择与设置视频 18分钟10秒已学完【DeepSeekv3预训练】3 MiniDeepSeek参数量与架构设置视频 25分钟17秒已学20% 【DeepSeekv3预训练】4 v3训练与数据处理环境搭建视频 33分钟38秒【DeepSeekv3预训练】5 从0构造与收集预训练数据集视频 34分钟39秒【DeepSeekv3预训练】6 aria2 + gitlfs + hfd 并行化数据下载视频 18分钟38秒【DeepSeekv3预训练】7 下载后数据管理与数据比例控制视频 23分钟59秒【DeepSeekv3预训练】8 大模型预训练数据清洗的一般流程视频 18分钟01秒【DeepSeekv3预训练】9 多模态PDFrawdata批量处理流程视频 25分钟29秒【DeepSeekv3预训练】9.5 关于预训练的一系列Q&A 视频 22分钟12秒【DeepSeekv3预训练】15 批量化分词中的分布式选择与IO限制问题视频 18分钟46秒【DeepSeekv3预训练】10 数据处理step1：巨量数据并行jsonl化实战视频 32分钟31秒【DeepSeekv3预训练】11 数据处理step2：Datajucier并行化数据清洗视频 28分钟42秒【DeepSeekv3预训练】12 Datajucier算子选择与筛选参数设置流程视频 29分钟53秒【DeepSeekv3预训练】12.5 数据清洗与显卡租赁相关的Q&A 视频 15分钟35秒【DeepSeekv3预训练】13 数据处理step3：tokenizer分词与数据混合（视频 22分钟41秒【DeepSeekv3预训练】14 数据处理step3：tokenizer分词与数据混合（视频 26分钟50秒【DeepSeekv3预训练】16 Prefix-Suffix-Middle数据掩码视频 06分钟05秒【DeepSeekv3预训练】17 数据处理step4：将数据按照DeepSeek与神经网视频 19分钟12秒【DeepSeekv3预训练】18 DeepSeekv3预训练必备文件与shell执行脚本视频 25分钟24秒【DeepSeekv3预训练】19 DeepSeekv3 pretrain.py脚本解读（视频 24分钟15秒【DeepSeekv3预训练】20 DeepSeekv3 pretrain.py脚本解读（视频 25分钟30秒【DeepSeekv3预训练】20.5.1 pretrain.py脚本相关的Q&A (1) 视频 12分钟46秒【DeepSeekv3预训练】20.5.2 pretrain.py脚本相关的Q&A (2) 视频 28分钟37秒【DeepSeekv3预训练】21 分布式预训练下对model脚本的改写与影响视频 18分钟18秒【DeepSeekv3预训练】21.5 model.py脚本相关Q&A 视频 11分钟40秒【预训练经验分享】1 巨量数据下载如何避免429错误？视频 07分钟07秒已学62% 【预训练经验分享】2 应该如何选择合适的tokenizer？视频 06分钟36秒【预训练经验分享】3 分词过程中精度对齐与数据量暴涨bug 视频 06分钟52秒【预训练经验分享】3.5 数据经验相关的Q&A 视频 06分钟40秒【预训练经验分享】4 开源推理模型用于训练都哪些陷阱？视频 03分钟42秒【预训练经验分享】5 如何确保多机多卡启动？如何拉满GPU效率？视频 07分钟55秒【预训练经验分享】6 落地debug工具与代码有哪些？视频 02分钟32秒【预训练经验分享】7 如何修复模型训练不稳定不收敛等问题？视频 08分钟48秒【预训练经验分享】8 训练时间太长如何改善？视频 10分钟16秒【预训练经验分享】9 训练效果不佳如何改善 + 多机多卡代码相关说明视频 03分钟20秒【预训练经验分享】9.5 预训练经验相关的Q&A 视频 17分钟02秒【数据处理经验分享】1 预训练 vs 微调 vs RAG如何选择？视频 19分钟47秒已学1% 【数据处理经验分享】2 预训练微调成本与最低配显卡标准视频 10分钟49秒【数据处理经验分享】3 预训练微调多模态都需要什么样的数据？视频 15分钟46秒【数据处理经验分享】4 各场景下数据如何配比？需要多大数据规模？视频 11分钟10秒【数据处理经验分享】5 数据去哪里找？人造数据要注意哪些问题？视频 14分钟26秒【数据处理经验分享】5.5 数据制造与选择相关的Q&A

📎 参考文章

一些引用

引用文章

💡

欢迎您在底部评论区留言，一起交流~