Header Image
Loading Events

« All Events

Virtual Event Virtual Event

100天掌握大语言模型 Week 17 – Mixture of Experts(MoE)混合专家模型深度解析

July 2 @ 7:00 pm - 8:00 pm PDT

Virtual Event Virtual Event

当你使用 GPT-4、Gemini、DeepSeek 或 Mixtral 时,你是否想过,为什么 GPT-4 据说拥有超过万亿级参数,但推理成本却远远低于同规模的传统模型?为什么今天最先进的大语言模型越来越少采用传统 Dense Transformer,而开始转向 MoE(Mixture of Experts)架构。为什么 DeepSeek、Mixtral、Qwen-MoE 等开源模型能用更低的计算成本获得更高的能?答案都指向一个正在改变 AI 世界的核心技术,Mixture of ExpertsMoE——混合专家模型

 

为什么要学习 MoE,过去几年,大语言模型的发展遵循一个简单逻辑,更多参数 = 更强能力。然而随着模型规模从数十亿增长到数千亿甚至万亿参数,人们发现一个严重问题,训练成本暴涨,推理成本暴涨,GPU需求暴涨。如果继续沿着 Dense Model 的道路发展,未来模型的训练成本可能达到数亿美元甚至更高。

于是,MoE 诞生了.MoE 的核心思想非常简单并不是所有参数都需要同时工作。就像一家医院不会让所有医生同时给一个病人看病一样,MoE 让不同“专家”负责不同任务,每个 Token 只激活少量专家。结果是:

✅ 模型容量大幅增加

✅ 推理成本显著降低

✅ 训练效率明显提升

✅ 更容易实现领域专家化

这也是为什么越来越多顶级模型开始采用 MoE 架构。

 

本次讲座你将学到什么

第一部分:为什么 Dense Model 已经走到瓶颈

我们将分析:

  • GPT-3 到GPT-4 的参数增长
  • Dense Transformer 的计算瓶颈
  • Scaling Law 的成本问题
  • 为什么继续堆参数不再可持续

理解 MoE 出现的历史背景。

 

第二部分:MoE 架构原

深入拆解:

  • Expert(专家网络)
  • Router(路由器)
  • Gating Network(门控机制)
  • Top-K Routing
  • Sparse Activation

理解:

为什么一个拥有数百亿参数的模型,
每次推理只需要激活其中的一小部分参数。

 

第三部分:MoE 的训练挑

MoE 最难的不是设计,而是训练。

我们将深入分析:

  • Expert Collapse
  • Load Balancing
  • Auxiliary Loss
  • Capacity Factor
  • Dead Expert 问题

以及 Google Switch Transformer 如何解决这些挑战。

 

第四部分:MixtralGPT-4  DeepSeek

通过真实案例学习:

Mixtral 8×7B

为什么:

46.7B 参数

却只激活:

12.9B 参数

却能够达到甚至超过 Llama2-70B 的效果?

我们将详细分析:

  • Mixtral 架构
  • Switch Transformer
  • GLaM
  • Gemini
  • DeepSeek-MoE
  • GPT-4 的MoE 猜想

理解当前最先进模型背后的架构趋势。

 

第五部分:MoE 的工程部署实

如果你是 AI 工程师,

这一部分将极具价值:

  • vLLM 部署Mixtral
  • Expert Parallelism
  • Tensor Parallelism
  • 多GPU 推理
  • VRAM 计算
  • INT4 量化
  • AWQ 部署

帮助你真正把 MoE 模型运行起来。

 

谁适合参加

✅ AI工程师

✅ LLM工程师

✅ 数据科学家

✅ 机器学习工程师

✅ 软件工程师

✅ 希望转型AI行业的开发者

✅ 对 GPT-4、DeepSeek、Gemini 架构感兴趣的技术人员

 

————————————-

主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。

三大项目为你全程解除求职困扰:

1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。

可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822

Details

Date:
July 2
Time:
7:00 pm - 8:00 pm PDT
Event Category:
Event Tags:
, , , ,
免费注册讲座

Organizer

AI聘
Phone:
+1(626)566-1822
Email:
info@aipin.io
View Organizer Website