- This event has passed.
100天掌握大语言模型-第三周
March 19 @ 7:00 pm - 8:00 pm PDT

主题介绍:
100天学会大语言模型,从 Transformer 到 GPT
一场真正“讲透 LLM 核心算法”的技术讲座
在今天这个大语言模型的时代,GPT、Claude、Gemini、LLaMA,所有主流大语言模型,背后都有同一个核心架构:Transformer
但问题是——
❗ 很多人“听说过 Attention”
❗ 看过公式,却始终没真正理解
甚至在面试中:
👉 讲不清 Multi-Head Attention
👉 解释不出 √d_k 为什么存在
👉 无法从系统角度说明 Encoder / Decoder
为什么你必须真正理解 Transformer?因为Transformer = LLM 工程师的“地基能力”。你可以不会训练模型,但你不能不理解:
- Attention 是如何工作的?
- 为什么Transformer 可以替代 RNN?
- GPT 和BERT 本质上有什么区别?
- LLM 的“推理能力”从哪里来?
这不仅是知识问题,而是是否具备 AI 工程师思维的问题。本讲座基于经典论文“Attention Is All You Need(NeurIPS 2017)”结合完整教学系列“100天掌握大语言模型”,将带你从“听说过”到“真正理解”
- 为什么Transformer 会颠覆整个AI 领域?
你将理解:
- RNN / LSTM 的三大致命瓶颈
- 为什么“并行计算”改变了一切
- Transformer 如何实现O(1) 路径建模长依赖
- 从“历史演进”看懂架构设计哲学
- Attention 机制(核心中的核心)
深入讲透:
- Scaled Dot-Product Attention
- 为什么要除以√d_k(面试高频点🔥)
- Attention 的四步计算流程
你将真正理解, 模型是如何“决定关注谁”的
- Multi-Head Attention(面试必考)
很多人只会背公式,但不会解释本质。本讲座将帮你搞懂:
- 为什么必须是“多头”?
- 每个head 在学什么?
- 为什么计算量没有增加?
- Positional Encoding(最容易被忽略的关键点)
深入拆解:
- 正弦/ 余弦编码的数学意义
- 为什么不用线性位置编码?
- RoPE / Learned PE 的演进
- Encoder & Decoder 架构全拆解
你将彻底搞懂:
- Self-Attention vs Cross-Attention
- Masked Attention(GPT核心)
- FFN 在模型中的真正作用
- 残差连接+ LayerNorm 的工程意义
- 从Transformer 到GPT / BERT(关键过渡)
讲座最后会帮你建立:
- GPT(Decoder-only)的本质
- BERT(Encoder-only)的设计逻辑
- 现代LLM 的统一架构视角
适合人群
- 想成为LLM Engineer / AI Engineer 的开发者
- 正在准备LLM / AI 面试 的求职者
- 学过Transformer,但理解不深入的人
- 想从“会用API”升级到“理解模型本质”的工程师
————————————-
主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。
三大项目为你全程解除求职困扰:
1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。
可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822