BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//AI聘 - ECPv5.10.0//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:AI聘
X-ORIGINAL-URL:https://aipin.io
X-WR-CALDESC:Events for AI聘
BEGIN:VTIMEZONE
TZID:America/Los_Angeles
BEGIN:DAYLIGHT
TZOFFSETFROM:-0800
TZOFFSETTO:-0700
TZNAME:PDT
DTSTART:20260308T100000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:-0700
TZOFFSETTO:-0800
TZNAME:PST
DTSTART:20261101T090000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Los_Angeles:20260416T190000
DTEND;TZID=America/Los_Angeles:20260416T200000
DTSTAMP:20260423T085901
CREATED:20260413T104647Z
LAST-MODIFIED:20260414T085830Z
UID:13049-1776366000-1776369600@aipin.io
SUMMARY:100天掌握大语言模型-第七周
DESCRIPTION:“2021年，对一个650亿模型进行微调需要企业级GPU集群。而到了2025年，一块A100就能完成这项工作——消费级RTX 4090甚至可以对70亿模型进行微调。PEFT技术让这一切成为可能。本次课程将详细讲解其原理。”\n\n\n\n问题在于：对于大多数从业者来说，全面的微调功能已经失效。 \n正是这套计算方法阻碍了大多数团队对大型语言模型进行微调。一个使用 FP16 编码的 70 亿参数模型，仅权重就需要 14 GB 内存。加上梯度：再加 14 GB。加上 Adam 优化器状态：56 GB。加上激活值：大约 8 GB。总计：大约需要 92 GB 的 GPU 显存——这超过了单个 80GB A100 显卡所能提供的显存。对于一个 700 亿参数的模型，这个数字还要乘以 10。 \n全面微调不仅成本高昂，对于大多数在超大规模数据中心基础设施之外工作的从业者来说，更是难上加难。这就是内存瓶颈——也是 PEFT 存在的意义所在。 \n\n\n\n约 92 GB \n完全微调 7B 型号所需的显存（比单个 A100 的显存要多）\n0.08% \nLoRa训练的参数数量——但仍能达到95-99%的完整微调性能\n约65倍 \n与 65B 型号的全面微调相比， QLoRA所需的 VRAM 更少\n\n\n\n  \n\n\n\n演示文稿中的关键见解：PEFT 将可训练参数减少到 0.01%–1%，同时保留 95%–99% 的完全微调性能——这是实际 LLM 工程的范式转变。\n\n\n\n45分钟内你将学到什么 \n第 7 周涵盖了完整的 PEFT 堆栈：为什么内存墙使得完全微调不切实际，三种参数高效方法，每种方法背后的数学原理，以及为您的场景选择正确方法的清晰决策框架。 \n\n\n\n为什么是PEFT？记忆墙 \n70亿次微调所需的GPU内存计算如下：14GB权重 + 14GB梯度 + 56GB Adam状态 + 8GB激活值 = 总计约92GB。为什么即使是A100的80GB显存也不够用——以及PEFT如何用少10到100倍的显存解决这个问题。\n三个 PEFT 家庭 \n低秩分解（ LoRA及其变体： DoRA 、 LoftQ 、 LoRA +）、瓶颈适配器（Adapter、 AdapterDrop 、Compacter）和软提示方法（Prefix Tuning、Prompt Tuning、P-Tuning v2）。包含每种方法的公式。\n\n\n\n  \n\n\n\nLoRA深度解析 \n核心方程 W = W0 + BA，所有变量均已定义，计算得出参数缩减率达 99.6%（当 d=k=4096，r=8 时，参数从 16.8M 减少到 65.5K）。目标权重矩阵为（ Wq / Wk / Wv 为必需，Wo 为推荐）。排序选择指南：r=4，r=8，r=16–64。\n量化 + QLoRA \nFP32 → FP16 → INT8 → INT4 显存对比。NF4（4 位正态浮点数）——为何它在处理正态分布权重时优于标准 INT4。QLoRA的三大创新：NF4、双量化和分页优化器。在单个 48 GB GPU 上对 650 亿次LLaMA进行了微调。\n\n\n\nPEFT 的四种方法——并排比较 \n本次课程将介绍四种实用的适应策略，这些策略直接取自第16页幻灯片上的对比表格。以下是您将从每种策略中了解到的内容： \n\n\n\n1\n全面微调（基准）——更新所有 100% 的参数。性能上限最高。70 亿字节需要约 92 GB 显存。每个任务需要一份完整的 14 GB 模型副本。在任何标准硬件上，1000 亿字节以上的任务都无法实现。\n\n\n\n  \n\n\n\n2\nLoRa——行业默认方案——冻结骨干网。添加低秩矩阵对B和A。仅更新0.1%至1%的参数。训练完成后，将ΔW = BA合并，以实现零推理延迟。N个任务=N个小文件，共享一个14GB的骨干网。\n\n\n\n  \n\n\n\n3\n适配器调优——多任务专家——在每个 FFN 后插入瓶颈 MLP 模块： h_out = h + f( h· W_down )· W_up 。一个冻结的主干网 + N 个小型适配器集（每个 2–8 MB）。无法像LoRa那样合并——会增加约 3–10毫秒的延迟。非常适合同时处理 50 个以上任务的情况。\n\n\n\n  \n\n\n\n4\nQLoRA——消费级GPU微调——将基础模型量化为NF4（4位）。冻结模型。在BF16中训练LoRa适配器。结果：在1×A100 80GB显存上对650亿LLaMA模型进行了微调，峰值显存占用41GB。对同一模型进行完整微调需要超过500GB的显存。\n\n\n\n  \n\n\n\n经验法则：对于 90% 的生产环境微调任务， LoRA r=8 在Wq / Wk / Wv / Wo 上是正确的默认值。从这里开始。只有在有特殊原因时才需要更改：例如使用消费级 GPU（→ QLoRA ）或同时处理多个任务（→ 适配器）。\n\n\n\n  \n谁应该参加 \n  \n\n\n\n机器学习工程师\nLoRA 、适配器和QLoRA 的开源 LLM 进行微调，以及入门的实用方法。\n\n\n\n  \n\n\n\n数据科学家\n对于那些希望将基础模型应用于特定领域任务，但又无法使用多GPU基础设施的用户来说，PEFT 可以在单个GPU上实现这一目标。\n\n\n\n  \n\n\n\n人工智能产品经理\n在规划 LLM 产品功能时，谁需要了解微调方法之间的工程权衡——性能、成本、延迟、存储。\n\n\n\n  \n\n\n\n软件工程师\n集成 LLM API，以便了解为什么LoRA微调模型与基础模型的行为不同，以及如何评估权衡取舍。\n\n\n\n  \n\n\n\n研究人员\n在 LLM 的基础上构建，适用于需要最高效的参数自适应策略以适应其计算预算的学术或应用项目。\n\n\n\n  \n\n\n\n系列中的所有人\n第 7 周衔接了微调理论（第 5 周）和对齐（第 10 周：RLHF）。它也是任何严肃的 LLM 应用流程的工程基础。\n\n\n\n  \n第 7 周在整个系列中的核心位置 \n第 7 周是本系列课程的实践工程核心。第 1-6 周构建了概念基础：什么是 LLM，如何进行预训练以及如何进行调整。第 7 周解答了每个从业者最终都会提出的问题：“是的，但是我该如何微调一个我能负担得起运行成本的模型呢？” \n100 Days of LLM Mastery，从零基础到工程实战，系统掌握大语言模型的完整知识体系。 \n你是否有过这样的困惑？ \n大语言模型（LLM）席卷全球，ChatGPT、Claude、Gemini 改变了人机交互的方式。你看到身边越来越多的人在用 AI 解决实际问题，甚至开始构建自己的 AI 产品——而你，还在观望。 \n你也许读过不少碎片化的教程，却始终找不到一条清晰的成长路径。你知道Transformer，却说不清它的工作原理；你会调用 API，却不明白模型背后发生了什么；你想构建一个 RAG 系统，却不知从何下手。 \n那么这个系列讲座，就是为你而生。 \n  \n课程简介 \n「100天掌握大语言模型」是一套系统化的中英双语讲座课程，历时 100 天，从机器学习基础到 LLM 工程实战，帮助你建立完整的大模型知识体系，并最终独立完成一个可展示的工程级 AI 项目。 \n课程不依赖任何单一框架，而是聚焦底层原理与工程思维，让你真正理解模型，而不只是会调用 API。 \n课程路线图： \n五大阶段 · 循序渐进 · 知行合一 \n第一阶段：基础篇 Day 1–20 机器学习回顾 · NLP 基础 · Transformer 原理\n从线性回归到神经网络，从 Word2Vec 到 BERT，用 20 天夯实你的理论地基。亲手在小规模数据上训练一个 Transformer，真正读懂《Attention Is All You Need》这篇改变 AI 世界的论文。 \n第二阶段：核心技术篇 Day 21–50 预训练 · 微调 · 评估 · 安全\n深入 LoRA、QLoRA 等参数高效微调方法，掌握 RLHF 对齐技术，理解幻觉、偏见、越狱等安全问题。动手微调 BERT，完成真实情感分析任务。 \n第三阶段：应用与系统篇 Day 51–80 Prompt 工程 · RAG · 智能体 · 部署\n构建 RAG 聊天机器人，搭建 LangChain Agent，掌握 llama.cpp 本地推理与云端部署。从原型到生产，打通 LLM 应用的全链路。 \n第四阶段：高级主题 Day 81–90 MoE · 模型蒸馏 · 多模态 · Constitutional AI\n探索混合专家模型、多模态大模型（文本+图像）以及更前沿的 AI 对齐方法，跟上行业最新进展。 \n第五阶段：毕业项目 Day 91–100 选题 · 实现 · 展示\n从客服聊天机器人、求职助手、加密资产分析到 AI 教学辅导系统，选择一个方向，完成可运行 Demo + 技术博客 + GitHub 仓库，作为你 AI 工程能力的最佳证明。 \n适合谁来学？ \n✅ 有一定 Python 基础，希望系统入门大模型的工程师或学生\n✅ 已经会用 LLM API，想深入理解原理和工程细节的开发者\n✅ 对 AI 充满热情，想在 100 天内完成一次技术跨越的学习者\n✅ 希望在简历上增加一个真实 AI 项目的求职者 \n完成课程后，你将收获： \n· 完整的 LLM 知识体系，从理论到工程缺一不可\n· 扎实的动手能力：微调模型、构建 RAG、部署应用\n· 一份展示在 GitHub 上的工程级毕业项目\n· 读懂最新 AI 论文的能力，跟上行业前沿 \n100天，从今天开始！大语言模型时代，最好的入场时机永远是现在。 \n  \n————————————- \n主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。 \n三大项目为你全程解除求职困扰： \n1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；\n2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；\n3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。 \n可登录 www.aipin.io了解更多项目信息和成功案例。\n邮箱: info@aipin.io\n电话: +1 (626) 566 1822
URL:https://aipin.io/event/llm-7/
CATEGORIES:直播讲座
ORGANIZER;CN="AI%E8%81%98":MAILTO:info@aipin.io
LOCATION:https://dataapplab.zoom.us/webinar/register/8317724471564/WN_MD5Qr28NTy62AYRatCnNJQ
END:VEVENT
END:VCALENDAR