Virtual Event

100天掌握大语言模型 Week 17 – Mixture of Experts（MoE）混合专家模型深度解析

Name: 100天掌握大语言模型 Week 17 – Mixture of Experts（MoE）混合专家模型深度解析
Start: 2026-07-02T19:00:00-07:00
End: 2026-07-02T20:00:00-07:00

July 2 @ 7:00 pm - 8:00 pm PDT

Virtual Event

当你使用 GPT-4、Gemini、DeepSeek 或 Mixtral 时，你是否想过，为什么 GPT-4 据说拥有超过万亿级参数，但推理成本却远远低于同规模的传统模型？为什么今天最先进的大语言模型越来越少采用传统 Dense Transformer，而开始转向 MoE（Mixture of Experts）架构。为什么 DeepSeek、Mixtral、Qwen-MoE 等开源模型能用更低的计算成本获得更高的能？答案都指向一个正在改变 AI 世界的核心技术，Mixture of Experts（MoE）——混合专家模型。

为什么要学习 MoE,过去几年，大语言模型的发展遵循一个简单逻辑,更多参数 = 更强能力。然而随着模型规模从数十亿增长到数千亿甚至万亿参数，人们发现一个严重问题,训练成本暴涨，推理成本暴涨，GPU需求暴涨。如果继续沿着 Dense Model 的道路发展,未来模型的训练成本可能达到数亿美元甚至更高。

于是，MoE 诞生了.MoE 的核心思想非常简单并不是所有参数都需要同时工作。就像一家医院不会让所有医生同时给一个病人看病一样,MoE 让不同“专家”负责不同任务，每个 Token 只激活少量专家。结果是：

✅ 模型容量大幅增加

✅ 推理成本显著降低

✅ 训练效率明显提升

✅ 更容易实现领域专家化

这也是为什么越来越多顶级模型开始采用 MoE 架构。

本次讲座你将学到什么？

第一部分：为什么 Dense Model 已经走到瓶颈？

我们将分析：

GPT-3 到GPT-4 的参数增长
Dense Transformer 的计算瓶颈
Scaling Law 的成本问题
为什么继续堆参数不再可持续

理解 MoE 出现的历史背景。

第二部分：MoE 架构原理

深入拆解：

Expert（专家网络）
Router（路由器）
Gating Network（门控机制）
Top-K Routing
Sparse Activation

理解：

为什么一个拥有数百亿参数的模型，
每次推理只需要激活其中的一小部分参数。

第三部分：MoE 的训练挑战

MoE 最难的不是设计，而是训练。

我们将深入分析：

Expert Collapse
Load Balancing
Auxiliary Loss
Capacity Factor
Dead Expert 问题

以及 Google Switch Transformer 如何解决这些挑战。

第四部分：Mixtral、GPT-4 与 DeepSeek

通过真实案例学习：

Mixtral 8×7B

为什么：

46.7B 参数

却只激活：

12.9B 参数

却能够达到甚至超过 Llama2-70B 的效果？

我们将详细分析：

Mixtral 架构
Switch Transformer
GLaM
Gemini
DeepSeek-MoE
GPT-4 的MoE 猜想

理解当前最先进模型背后的架构趋势。

第五部分：MoE 的工程部署实践

如果你是 AI 工程师，

这一部分将极具价值：

vLLM 部署Mixtral
Expert Parallelism
Tensor Parallelism
多GPU 推理
VRAM 计算
INT4 量化
AWQ 部署

帮助你真正把 MoE 模型运行起来。

谁适合参加？

✅ AI工程师

✅ LLM工程师

✅ 数据科学家

✅ 机器学习工程师

✅ 软件工程师

✅ 希望转型AI行业的开发者

✅ 对 GPT-4、DeepSeek、Gemini 架构感兴趣的技术人员

————————————-

主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。

三大项目为你全程解除求职困扰：

1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；
2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；
3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。

可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822

+ Google Calendar + iCal Export

Details

Date:: July 2
Time:: 7:00 pm - 8:00 pm PDT
Event Category:: 直播讲座
Event Tags:: 数据科学家, 求职, 美国求职, 美国留学生求职, 面试

Organizer

: AI聘
Phone:: +1(626)566-1822
Email:: info@aipin.io; View Organizer Website