100天掌握大语言模型 Week 17 – Mixture of Experts(MoE)混合专家模型深度解析
July 2 @ 7:00 pm - 8:00 pm PDT

当你使用 GPT-4、Gemini、DeepSeek 或 Mixtral 时,你是否想过,为什么 GPT-4 据说拥有超过万亿级参数,但推理成本却远远低于同规模的传统模型?为什么今天最先进的大语言模型越来越少采用传统 Dense Transformer,而开始转向 MoE(Mixture of Experts)架构。为什么 DeepSeek、Mixtral、Qwen-MoE 等开源模型能用更低的计算成本获得更高的能?答案都指向一个正在改变 AI 世界的核心技术,Mixture of Experts(MoE)——混合专家模型。
为什么要学习 MoE,过去几年,大语言模型的发展遵循一个简单逻辑,更多参数 = 更强能力。然而随着模型规模从数十亿增长到数千亿甚至万亿参数,人们发现一个严重问题,训练成本暴涨,推理成本暴涨,GPU需求暴涨。如果继续沿着 Dense Model 的道路发展,未来模型的训练成本可能达到数亿美元甚至更高。
于是,MoE 诞生了.MoE 的核心思想非常简单并不是所有参数都需要同时工作。就像一家医院不会让所有医生同时给一个病人看病一样,MoE 让不同“专家”负责不同任务,每个 Token 只激活少量专家。结果是:
✅ 模型容量大幅增加
✅ 推理成本显著降低
✅ 训练效率明显提升
✅ 更容易实现领域专家化
这也是为什么越来越多顶级模型开始采用 MoE 架构。
本次讲座你将学到什么?
第一部分:为什么 Dense Model 已经走到瓶颈?
我们将分析:
- GPT-3 到GPT-4 的参数增长
- Dense Transformer 的计算瓶颈
- Scaling Law 的成本问题
- 为什么继续堆参数不再可持续
理解 MoE 出现的历史背景。
第二部分:MoE 架构原理
深入拆解:
- Expert(专家网络)
- Router(路由器)
- Gating Network(门控机制)
- Top-K Routing
- Sparse Activation
理解:
为什么一个拥有数百亿参数的模型,
每次推理只需要激活其中的一小部分参数。
第三部分:MoE 的训练挑战
MoE 最难的不是设计,而是训练。
我们将深入分析:
- Expert Collapse
- Load Balancing
- Auxiliary Loss
- Capacity Factor
- Dead Expert 问题
以及 Google Switch Transformer 如何解决这些挑战。
第四部分:Mixtral、GPT-4 与 DeepSeek
通过真实案例学习:
Mixtral 8×7B
为什么:
46.7B 参数
却只激活:
12.9B 参数
却能够达到甚至超过 Llama2-70B 的效果?
我们将详细分析:
- Mixtral 架构
- Switch Transformer
- GLaM
- Gemini
- DeepSeek-MoE
- GPT-4 的MoE 猜想
理解当前最先进模型背后的架构趋势。
第五部分:MoE 的工程部署实践
如果你是 AI 工程师,
这一部分将极具价值:
- vLLM 部署Mixtral
- Expert Parallelism
- Tensor Parallelism
- 多GPU 推理
- VRAM 计算
- INT4 量化
- AWQ 部署
帮助你真正把 MoE 模型运行起来。
谁适合参加?
✅ AI工程师
✅ LLM工程师
✅ 数据科学家
✅ 机器学习工程师
✅ 软件工程师
✅ 希望转型AI行业的开发者
✅ 对 GPT-4、DeepSeek、Gemini 架构感兴趣的技术人员
————————————-
主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。
三大项目为你全程解除求职困扰:
1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。
可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822