BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//AI聘 - ECPv5.10.0//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:AI聘
X-ORIGINAL-URL:https://aipin.io
X-WR-CALDESC:Events for AI聘
BEGIN:VTIMEZONE
TZID:America/Los_Angeles
BEGIN:DAYLIGHT
TZOFFSETFROM:-0800
TZOFFSETTO:-0700
TZNAME:PDT
DTSTART:20260308T100000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:-0700
TZOFFSETTO:-0800
TZNAME:PST
DTSTART:20261101T090000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Los_Angeles:20260702T190000
DTEND;TZID=America/Los_Angeles:20260702T200000
DTSTAMP:20260701T054759
CREATED:20260630T104613Z
LAST-MODIFIED:20260630T104613Z
UID:13163-1783018800-1783022400@aipin.io
SUMMARY:100天掌握大语言模型 Week 17 - Mixture of Experts（MoE）混合专家模型深度解析
DESCRIPTION:当你使用 GPT-4、Gemini、DeepSeek 或 Mixtral 时，你是否想过，为什么 GPT-4 据说拥有超过万亿级参数，但推理成本却远远低于同规模的传统模型？为什么今天最先进的大语言模型越来越少采用传统 Dense Transformer，而开始转向 MoE（Mixture of Experts）架构。为什么 DeepSeek、Mixtral、Qwen-MoE 等开源模型能用更低的计算成本获得更高的能？答案都指向一个正在改变 AI 世界的核心技术，Mixture of Experts（MoE）——混合专家模型。 \n  \n为什么要学习 MoE\,过去几年，大语言模型的发展遵循一个简单逻辑\,更多参数 = 更强能力。然而随着模型规模从数十亿增长到数千亿甚至万亿参数，人们发现一个严重问题\,训练成本暴涨，推理成本暴涨，GPU需求暴涨。如果继续沿着 Dense Model 的道路发展\,未来模型的训练成本可能达到数亿美元甚至更高。 \n于是，MoE 诞生了.MoE 的核心思想非常简单并不是所有参数都需要同时工作。就像一家医院不会让所有医生同时给一个病人看病一样\,MoE 让不同“专家”负责不同任务，每个 Token 只激活少量专家。结果是： \n✅ 模型容量大幅增加 \n✅ 推理成本显著降低 \n✅ 训练效率明显提升 \n✅ 更容易实现领域专家化 \n这也是为什么越来越多顶级模型开始采用 MoE 架构。 \n  \n本次讲座你将学到什么？ \n第一部分：为什么 Dense Model 已经走到瓶颈？ \n我们将分析： \n\nGPT-3 到GPT-4 的参数增长\nDense Transformer 的计算瓶颈\nScaling Law 的成本问题\n为什么继续堆参数不再可持续\n\n理解 MoE 出现的历史背景。 \n  \n第二部分：MoE 架构原理 \n深入拆解： \n\nExpert（专家网络）\nRouter（路由器）\nGating Network（门控机制）\nTop-K Routing\nSparse Activation\n\n理解： \n为什么一个拥有数百亿参数的模型，\n每次推理只需要激活其中的一小部分参数。 \n  \n第三部分：MoE 的训练挑战 \nMoE 最难的不是设计，而是训练。 \n我们将深入分析： \n\nExpert Collapse\nLoad Balancing\nAuxiliary Loss\nCapacity Factor\nDead Expert 问题\n\n以及 Google Switch Transformer 如何解决这些挑战。 \n  \n第四部分：Mixtral、GPT-4 与 DeepSeek \n通过真实案例学习： \nMixtral 8×7B \n为什么： \n46.7B 参数 \n却只激活： \n12.9B 参数 \n却能够达到甚至超过 Llama2-70B 的效果？ \n我们将详细分析： \n\nMixtral 架构\nSwitch Transformer\nGLaM\nGemini\nDeepSeek-MoE\nGPT-4 的MoE 猜想\n\n理解当前最先进模型背后的架构趋势。 \n  \n第五部分：MoE 的工程部署实践 \n如果你是 AI 工程师， \n这一部分将极具价值： \n\nvLLM 部署Mixtral\nExpert Parallelism\nTensor Parallelism\n多GPU 推理\nVRAM 计算\nINT4 量化\nAWQ 部署\n\n帮助你真正把 MoE 模型运行起来。 \n  \n谁适合参加？ \n✅ AI工程师 \n✅ LLM工程师 \n✅ 数据科学家 \n✅ 机器学习工程师 \n✅ 软件工程师 \n✅ 希望转型AI行业的开发者 \n✅ 对 GPT-4、DeepSeek、Gemini 架构感兴趣的技术人员 \n  \n————————————- \n主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。 \n三大项目为你全程解除求职困扰： \n1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；\n2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；\n3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。 \n可登录 www.aipin.io了解更多项目信息和成功案例。\n邮箱: info@aipin.io\n电话: +1 (626) 566 1822
URL:https://aipin.io/event/100%e5%a4%a9%e6%8e%8c%e6%8f%a1%e5%a4%a7%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b-week-17-mixture-of-experts%ef%bc%88moe%ef%bc%89%e6%b7%b7%e5%90%88%e4%b8%93%e5%ae%b6%e6%a8%a1%e5%9e%8b%e6%b7%b1%e5%ba%a6/
CATEGORIES:直播讲座
ATTACH;FMTTYPE=image/png:https://aipin.io/wp-content/uploads/2026/06/100天掌握大语言模型-17.png
ORGANIZER;CN="AI%E8%81%98":MAILTO:info@aipin.io
LOCATION:https://dataapplab.zoom.us/webinar/register/8317724471564/WN_MD5Qr28NTy62AYRatCnNJQ
END:VEVENT
END:VCALENDAR